Head First Statistics 



轻松剔除 
图形错误 


深入浅出 


看统计学如何 
瞒天过海 


Dawn Griffiths 著 


李芳译 




常孑 i f 出娀; a . 

PUBUSHJNGHOUSE OF ELECTRONICS INDUSTRY 

http://www.phei.com.cn 


O REILLY 











统计 / 数学 


f 


你将从本书学到什么? 


如果有一本探讨统计学的书鞯，能够让直方图 （ histogram ). 概率分布 
(probability distribution ) 、卡方分析 (chi square analysis ) 的学习不再像看牙医 
那么恐怖，那该有多好？正是 《深人 浅出统计学》这一本书，为这个枯燥的领域带 
来鲜活的乐趣，运用充满互动性的真实世界情节，教导你有关这门学科的所有基 
础，内容涵盖其广，从分析运动比赛.博弈游戏到临床药物试验 都有。 


不砼 你是在修习统计学，准备统计学考试，或者只是对统计分析抱肴极人的好奇 
心，“深入浅出”系列的撰写风格都能为你提供莫大的帮助，不仅让你宂分掌捉统 
计学的要义，更会告诉你如何将统计现论应用到日常生活中。 
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本书为何乌众不同? 


我们认为你的时间极其宝贵，不该浪费在冥思苦想各种新名词、新槪念上。 《深入 
浅出统计学》运用认知科学与学习理论的最新研究成果，精心建构出-段引发多教 
感知的学>1体验。《深人浅出统计学》采取专为大脑运作而 设计的 丰富视觉化风 
格，你将不再被密密麻麻的文字催得昏昏欲睡。 
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《深人浅出统计学》具有深人浅出系列的一贯特色，提供最符合直觉的理解方式，让统 
i 十理论的学习既有趣又然。从应对考试到解决实际问题，无论你是学生还是数据分析师， 
都能从中受益,，本15涵盖的知识点 包括： 信息可视化、概率计算、几何分布、二项分布 
及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回 
归等等, 完整涵盖 AP 考试范围。本书运用充满互动性的真实世界情节，教给你有关这 
门学科的所有基础，为这个枯燥的领域带来鲜活的乐趣，不仅让你充分掌握统计学的要义， 
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978-0-596-52758-7 Head First Statistics © 2009 by O’Reilly Media , Inc . Simplified Chinese 
edition , jointly published by O’Reilly Media , Inc . and Publishing House of Electronics 
Industry , 2011 .Authorized translation of the English edition , 2009 O'Reilly Media , Inc ., 
the owner of all rights to publish and sell the same,All rights reserved including the rights 
of reproduction in whole or in part in any form . 

本书中文简体版专有出版权由 Oleilly Media , Inc . 授予电子工业出版社，未经许可，不 
得以任何方式复制或抄袭本书的任何部分。 

版权贸易合同登记号 图字： 01-2011-7144 
圍书在版编目 ( CIP ) 数据 

深人浅出统计学/ ( 美）格里菲思 （ Griff 〖 ths , D .) 著； 李芳译.一 北京： 电子工业出版社， 
2012.1 书名原文 ： Head First Statistics 
ISBN 978-7-121-15308-2 

I . ①深 … II .①格…②李 … III • ①统计学一通俗读物 IV •① C 8-49 
中国版本图书馆 CIP 数据核字 （2011) 第243859号 

责任 编辑： 李影 策划： 卢鸫翔 

印 刷：北京天宇星印刷厂 

装 订： 三河市鹏成印业有限公司 

出版 发行： 电子工业出版社 

北京市海淀区万寿路173信箱 邮编：100036 

开 本： 860 x 1092: 1/16 印张： 45 字 数： 717千字 

印 次： 2012年1月第1次印刷 

印 数： 4 000册 定价： 89.00 元 

凡所购买电子工业出版社图书有缺损问题，请向购买书店调换。若书店售缺，谙与本社发行部联系， 
联系及邮购电话： （ 010 ) 88254888。 

质 S 投诉请发邮件至 zlts @ phei . com . cn ,盗版侵权举报请发邮件至 dbqq @ phei . com . cn 。 服务 热线： 
(010) 88258888。 



本书荐辞 


“《深入浅出统计学》是目前市面上最具娱乐性、最能够抓住读者注意力的统计学研读指南。透过生动 
活泼的手法与素材，为这个困难的主题提供最容易被接受的学习方式，贯穿全书的精辟解说让各种程 
度的学生都能够充分地理解统计学的妙义。” 

-阿瑞娜 • 安德森 （ Ariana Anderson ) ,加利福尼亚大学洛杉矶分校统计系教师助理及 

博士生 

“《深人浅岀统计学》润物细无声。当一口气看完讲解和练习后，你就会发现自己在社交谈话中可以开 
口闭口正态分布、泊松分布，我保证并没有人建议你这么做！” 

-加里•沃尔夫 （ Gary Wolf ) ， 《连线》杂志 （ Wired Magazine ) 特约编辑 

“道恩.格里菲思把一些十分复杂的概念拆分为一块块小材料，它们不那么令人望而生畏，凡夫俗子都 
会觉得十分容易掌握。大量图形、图片让材料具体生动， 458 页那位吵着要买口香糖球的迷人女模特 
已然让我心生情愫。” 

-布鲁斯 ■ 弗雷 （ Bruce Frey ) ,《统计学技巧》 （ Statistics Hacks ) 作者 

“《深人浅出统计学》运用简单的生活实例，提供最符合直觉的理解方式，让统计理论的学习既有趣又 
自然。” 

-迈克尔•普瑞诺 （ Michael Prerau ) ， 波士顿大学计算神经科学和统计学讲师 

“你以为‘深人浅出’图书只适合计算机迷吗？不妨试试用本书提供的方式学习统计学，你就会改变想 
法。这方法的确有用。” 

-安迪.帕克 （ Andy Parker ) 

“这本书非常适合学生学习统计学——寓教于乐、讲解全面、易于理解。完美无缺的方法！” 

-丹媒尔 • 莱维特 （ Danielle Levitt ) 

“打倒其他枯燥无味的统计书！连我的猫都喜欢这一本。” 

-凯里 • 科利特 （ Cary Collett ) 



深入浅出系列囫书美誉 

“凯西和伯特合著的《深人浅出 lava 》 让白纸黑字摇身一变，成为读者领略过的最接近图形用户界面的 
作品。作者以幽默、新潮的风格，让学习 lava 成为不断追问‘他们后来怎么样了？’的愉快体验。” 

- 沃伦•柯费尔 （Warren Keuffel ) ,《软件开发》杂志 （Software Development ) 

“《深人浅出 lava 》 引人人胜的风格会把本来一无所知的你变成斗志昂扬的 lava 战士，不仅如此，书中 
还收人了大量实用事例，这样的实用事例在其他文章中只会留给恐怖的‘读者练习’。此书睿智、幽 
默、新潮而实用一能在讲授对象序列化和网络加载协议知识的同时有这样的主张并坚持做到的书籍 
并不多见。 

- 丹■罗素 （Dan Russell ) 博士 ， IBM Almaden 研究中心用户科学和用户体验研究室主 

任 （ 兼斯坦福大学人工智能教师） 

“此书明快，风趣，玩世不恭，引人人胜。细心读一你可能确实能学到东西！” 

- 肯.阿诺德 （Ken Arnold ) ,曾任 Sun Microsystems 高级工程师，与 〗 ava 创始人詹姆 

斯.戈斯林 （lames Gosling ) 合著 《 lava 编程语言 》 （The lava Programming Language ) 

“如醍醐灌顶，脑海中堆积如山的书本知识一下子消化了。” 

- 沃德.坎宁安 （Ward Cunningham ) ,维基概念发明人 ， Hillside Group 创立人 

“正合我们这些喜欢研究技术、生活随意的程序员的口味，实用开发策略的称手参考书——让我的大脑 
尽情运转，无须硬着头皮应付迂腐乏味的专家说教。” 

- 特拉维斯•卡兰尼克 （Travis Kalanick ) , Scour 网站和 Red Swoosh 网站创始人，获麻 

省理工学院 TR 100 ( 《技术回顾》世界百名青年创新学者）称号 

“有的书是用来买的，有的书是用来藏的，还有的书是用来摆在案头的。感谢 O ’ Reilly 和 Head First 的员 
工，他们出了最高等级的书——深入浅出系列，让人爱不释手、百读不厌。《深人浅出 SQL 》 是我最 
心爱的书，连参考用的 PDF 打印稿都快翻烂了。” 


—— 比尔- 索耶 （Bill Sawyer ) ， Oracle 公司 ATG 课程经理 



深入浅出系列图书美誉 

“本书的透彻、幽默和睿智令人钦佩，连编程门外汉也能借助这样的书想出办法解决问题。” 

- 科利. 多克托罗 （Cory Doctorow ) ，博客网站 BoingBoing 撰稿人合作编辑，著有《魔 

法王国的故事 》 （Down and Out in the Magic Kingdom ) 及《人来人往的城市》 

(Someone Comes to Town , Someone Leaves Town ) 

“昨天收到书就开始读……一读就停不下来了，真是酷毙了。书很有趣，内容扎实，切中肯綮。印象太 
好了。” 

- 艾瑞克 •伽玛 （Erich Gamma ) , IBM 杰出工程师，《设计模式 》 （Design Patterns ) 

合著者 

“我读过的最有趣、最高明的软件设计图书之一。” 

- 艾伦_拉伯奇 （Aaron LaBerge ) , ESPN . com 技术副主席 

“过去要犯着错误摸索前进的漫长学习过程，现在干净利落地浓缩在一本迷人的平装书中。” 

- 麦克_戴维森 （Mike Davidson ) ， Newsvine , Inc . 首席执行官 

“每一章都凝聚着优雅的设计，每一条原理无不饱含实用价值与闪光智慧。” 

- 肯.戈德斯坦 （Ken Goldstein ) ,迪斯尼在线执行副总裁 

“我 ▼《深 人浅出 HTML 与 CSS & XHTML 》 。 它以‘有趣’的模式，将全部知识倾 囊相授 。” 

-丹妮尔.莱维特 （Danielle Levitt ) 

“通常，阅读设计模式方面的书或文章时，我都得头悬梁锥刺股才能保证注意力集中。这本书却是个例 
外，听起来可能有点怪，这本书让学习设计模式变得盎然有趣。 

“当其他设计模式方面的书籍还在教读者呀呀学语时，这本书却已在踏浪高歌‘加油，兄弟！ ’ ” 

-艾维克 • 伍勒 （Eric Wuehler ) 

“我实实在在爱这本书。事实上，我当着老婆的面亲了这本书。” 


-塞提斯•库玛 （Satish Kumar ) 




O ’ Reilly 其他相关图书 

Statistics Hacks™ 

Statistics in a Nutshell 
Mind Hacks™ 

Mind Performance Hacks™ 
Your Brain: The Missing Manual 


O ’ Reilly 深入浅出系列其他图书 

Head nrst Java™ 

Head First Object-Oriented Analysis and Design (OOA&D) 

Head First HTML with CSS and XHTML 

Head First Design Patterns 

Head First Servlets and JSP 

Head First EJB 

Head First PMP 

Head First SQL 

Head First Programming (2008) 

Head First Design Patterns 
Head First Servlets and JSP 
Head First EJB 
Head First PMP 
Head First SQL 

Head First Programming (2008) 

Head First PHP& MySQL (2008) 

Head First Algebra (2008) 



献给我的爸爸、妈妈、大卫和卡尔。谢谢你们的支持和信任。 
不过还要等一段时间才能给你们车！ 






作者 



道恩.格里菲思 （Dawn Griffiths ) 以数学家的身 

份在一所顶尖英国大学开始读书生活，曾获得数学专 
业一级荣誉学位。可是，当她意识到人们在聚会上不 
愿意与她谈话时，就拒绝了一份研究极为罕见的微分 
方程的博士奖学金，转而从事软件开发事业。目前她 
将 IT 咨询、写作及数学集于一身。 

当道恩不写深人浅出系列图书的时候，你会看到她在 
打太极拳、织梭结花边或在烹饪美食——她还没有修 
炼出一心三用的绝技。旅行以及和她深爱的丈夫大卫 
在一起消磨时光也让她十分享受。 

道恩有一个猜测——《深人浅出梭结花边》有可能会 
很火爆，可她怀疑布雷特 （ Brett ) 和劳里 （ Laurie ) 
不会同意。 
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译者序 


译者序 


《深人浅出统计学》翻译好了。这是我翻译的第二本“深入浅出”系列书籍，第一本 
是《深人浅出数据分析》，两本书可以说是姊妹篇。 

《深人浅出统计学》具有深人浅出系列的一贯特色，即“认为深人浅出系列图书的 
每一位读者都是一位学习者”，遵守“将知识图形化”、“采用对话式的个性化风 
格”、“引导读者深人思考”、“牢牢吸引读者的注意力”、“影响读者的情感” 
等约定。不过，这并不意味着无法捕捉到作者的个人特点。 

与《深人浅出数据分析》喧嚣错杂的现场气氛相比，《深人浅出统计学》显示出一分 
属于“办公室”的宁静，由数据分析师整理好的数据就摆在那里，找到合适的方法进 
行演算成为工作的重点，这些方法 包括： 信息图形化、集中趋势的量度、分散性与变 
异性的量度、概率计算、离散概率分布、排列与组合、几何分布、二项分布及泊松分 
布、正态分布、统计抽样、总体和样本的估计、置信区间的构建、假设检验、卡方分 
布、相关与回归。从开篇至收尾，这些方法由独自登场到联袂表演，从“一支红杏出 
墙来”到“乱花渐欲迷人眼”，徐徐揭开统计学神秘的面纱。作者充分利用几个活泼 
有趣的情境，淋漓尽致地发挥深入浅出系列“反复阐述”的特色，举重若轻、有条不 
紊地完成了这本篇幅长达717页、内容多达15章的作品。 

身为译者，我当然有责任全力体现这样一部作品的风采。只是怎样一本译作才是“好” 
译作？这个议论伴随翻译这个营生的生而生，也许也只能伴随翻译这个营生的亡才会 
亡。与其孜孜不倦地讨论，不如做点切实的事情，向着“好”的目标接近。 

在《深人浅出统计学》的翻译过程中，有两件工作可以斗胆请读者 放心： 

一是术语的翻译。所有术语都有合理出处，优先采用的参考资料是 《GBT 3358.1- 
2 00 9 统计学词汇及符号第1部分：一般统计术语与用于概率的术语》。为了方便读 
者研究，现已将此标准中的所有术语整理成 《 GB 术语表》，见此 链接： http :// t . cn / 
aOSvIq 。 除了少数几个例外，只要能在此标准中査到的术语，均优先使用。所提到 
的少数几个例外则是为了成全表述上的一致性和逻辑性，例如， 

“ range ” 一词，未 

采用 GB 中出现过的“极差”，而是采用其他资料中出现的另一种说法“全距”，这 
是为了让与 “ range ” 有关的几个术语——全距、四分位距、百分位距等保持和谐一 
致，便于理解和记忆。 
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二是标点符号和字体格式的认真 使用： 第一，统计术语首次出现时加粗，凸显这个术 
语，引起读者 重视； 第二，统计用语过于冗长时，为了避免这个用语与句子的其他组 
成成分混淆不清，也加引号进行提示，例如，第4章第133页上的“停球结果为7” ； 
第三，提高破折号的使用频率，当前后两个句子有较为密切的因果联系时，即使原文 
未使用破折号，译文也改句号为破折号，以作提示。 

遗憾的是，有极少量术语无法做到既坚持采用术语，又保持中文的流畅。这固然是由 
于我个人经验不足、能力有限，但中英文的习惯差异、技术类书籍对术语正确性和一 
致性的特定要求也是其中的原因。例如， “ expect ” 译为“期望”，可是，当读到第5 
章中“这是你每拉一次杆能够期望得到的收益——是负数！”这样的句子时，我们多 
少会觉得有些怪异——在中文中，我们习惯于将“期望”这个词和美好的前景联系在 
一起，谁会期望自己的收益是负数？可是，如果将“期望”顺手改为“预期”以满足 
流畅性的需要，那么从技术的严谨性来看，并不是十分负责的做法。这样的词还有“ 
成功”一只要某件事情如期发生，都叫做“成功”，无论好歹。每到这种纠结时 
分，我往往按照个人意愿，任性地坚持“直译”。衷心希望这样的不足不会影响读者 
对统计学的兴趣和研究。 

本书初稿提交后，在卢鸫翔编辑的热心联络下，以下素未谋面的专业人士参与了初稿 
试读，给出了宝贵的审定意见，现借译者序向以下热心人士 致谢： 

陈钢、髙涛、江思源、梁涛、林宇、刘思喆、卢涛、孙强宇、魏太云、吴昕、徐旭铭、张伸 

最后： 

感谢电子工业出版社、武汉嘉士特文化传播公司对我的信任。 

感谢卢鸫翔、徐涛编辑对我的帮助和指教。 

感谢家人对我的理解和支持，我爱你们。 


X 


李芳 
2011年9月 
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序言 


莫难4相信，他们竟 
把这些东曲写迸饼说 
计營鲶 韦里了 


蜂节因答一个热 n 同题： ■‘作者&竹么 a 要 
把这瘙糸*:§进一净饼说计考鹼车里？ ■’ 




如何使用本书 


淮造含阓锿本书？ 

请先回答几个 问题： 

© 因为一门课程、因为自己的工作，或仅仅因为你觉得 

自己应该懂得标准差的意义或是如何求轮盘赌嬴钱概 

率，使你需要了解统计学？ 

© 你想学习、理解和记忆如何使用概率和统计百发百中 
地得出正确结果？ 

(D 与枯燥、无聊的学术演讲相比，你更喜欢参加充满欢 
声笑语的晚宴，对吗？ 

如果以上问题全部回答“对！”——这本书适合你。 

谁该和本书说拜拜？ 

请先回答几个 问题： 

© 你从来没有学过基础算术？（不用很精通，但应该会 
基本的加、减、乘、除。） 

@ 你是一位意气风发的统计师，正在物色参考书？ 

@ 你惧怕尝试新事物，宁可上山打虎也不愿标新立异， 
对吗？你认为要是用拟人的手法叙述维恩图，统计学 
书籍就难免有失严肃，对吗？ 

只要有一个问题回答“对！ 

——你与本书无缘。 

I 营销都捎话 一 只要唷信 
用卡就可 .4 奚本硪 . 】 
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序言 


我们？藓你在想什么 

“这怎么能是一本严肃的统计学书籍呢? 
“这些图都是用来干嘛的？” 



'^很 t 要, 


我真能这样学统计学吗 


我们？解你的大胎在想什么 


你的大脑渴望新事物。大脑总是不停地搜索、探查、等待不同寻常的事 
物，它天生如此，这正是你活力的来源。 


那么，大脑怎么对待你所碰到的常规、普通、一般的事情呢？——它 
会竭尽全力阻止这些事情，以免干扰自己真正的工作——记录重要事^ 
项。大脑不会费力保存这些琐事，这些琐事从来不会成功地闯过“明 i 
显不重要事项”关卡。 


你的大脑如 何知道 哪件事重要？假想有一天你出门旅行，迎面扑来一只 
吊睛白额大虫，你的头脑和身体会有什么反应？ 


行啊 . 才禾过 700 多 
: S 姑媸 . 无肼.颊 
人的由容而已 . 


神经元发动、情绪激动、化学物质激增。于是，你的大脑知道 

这事绝对重要！记住！ 




但，想象你是呆在家里，或是呆在图书馆里，也就是说，是在 
个安全、温暖、没有老虎的地方。 


唯一的问题是：你的大脑想好好帮你一把，它试图保证不让这 
种“明显不重要”的内容去破坏珍惜的资源，这些珍稀的资源 
最好用来保存真正“重大”的事情，像老虎啊，像火灾险情啊， 
像你绝不该在 Facebook 的网页上贴上那些“聚会”照片啊。 


没有什么方便的办法可以告诉大脑“喂，大脑，我对你感激之 
至，可是不管这本书多无聊，也不管我对这本书多没兴趣，我 
真的想把这些东西全都记住。” 
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如何使用本书 



我们认为深入浅出 ( HeadFirst ) 系列 
傻书的每一位读者郄是一位学习者。 


既然要学习，怎样才能学会呢？首先，你得搞懂，然后，切勿遗忘。 一字一句硬 塞不是 
办法。根据最新的认知科学、神经生物学及教育心理学研究结果，学习远不仅仅是读书 
认字。我们知道怎么让你的脑筋动起来。 


将知识图形化。 图形比单调的文字好记得多，可以提高学习效率（记忆学习和转移学习 
k 的学习效率最多能提高89% ) ;图形还能让知识更容易理解，相比将文字放在页 

脚和下一页， 将文字放在相关图形当中或图形周围， 学习者成功解决相关 

问题的可能性将成倍增长。 


采用对话式的个性化风格。 最近 

的研究表明，要是回避一本正经的语气, 
代之以对话般的风格，以第一人称平易近人地给学生上课，学1 
生的课后测验成绩最多可提高40%。多讲几个故事，少来^ 
点高谈阔论，语气宜随和。别太郑重其事。想想看， 

笑语的晚宴，或 是一场 枯燥的演讲，哪 一样更 让你感兴趣？ 




引导读者深入 思考： 换句话说，除非读者主动调动自己的神 \/ 

经元，否则脑袋里不会发生什么大变化。只有激发读者的兴 

趣，引起读者的好奇，刺激读者的灵感，读者才能解决问题!- - 

得出结论，获得新知识。为此，讲授者要设计各种难题、练习，提出引人深思的 
提问， 还要多 Si 十一些 i 上左右脑半球 fn 多种,感官都动起来的活动。 


牢牢吸引读者的注意力。 大家都有这样的体验——“我是真想学，但看完 
第一页就晕了”。大脑注意的是不同寻常的、有趣的、奇怪的、引人注 
意的、出人意料的事情。 学习一 种新颖艰深的技术不 一定非 得枯燥乏味不 
可，果真有吸引注意力的内容，大脑会学得更快。 


影响读者的情感。 现在我们知道，人的记忆能力在很大程度上取 
决于要记忆的内容对情感的影响。我们关心什么,就会记住什么; 
我们对什么事有感觉，就会记住什么。这里讲的情感并非天灾 
人祸给人带来的撕心裂肺的伤痛情感，而是惊讶、好奇、感觉有趣、想追根究 
底之类的情感，以及在猜对一个字谜、在学会别人感觉难以学会的事情或是在 
意识到自己懂的东西居然比工程部那位开口闭口 “我比你有技术”的张三还多 
时，油然而生的“我是老大”的感觉。 
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序言 


X 认知：对恩考的思、考 


如果真想学东西，而且想学得更快更深人，就要关注自己如何集中注意 
力。要思考自己的思考方式，研究自己的研究方式。 

大多数人在成长过程中都不曾学习元认知和学习理论方面的知识。人们期 
望我们学知识，但极少有人教我们如何学。 

但想象得到，捧着本书的你，的确想学习统计学知识，同时可能不想花费 
太多时间。要想利用在本书中读到的知识，就得记住读过的知识，为此 
必须理解这些知识。为了淋漓尽致地发挥本书或任何书本或学习经验的作 
用，请管好你的大脑，请管好大脑对待本书的态度。 

诀窍在于让大脑把正在学习的新资料当做“正经大事”——对幸福至关 
重要的大事，像面对老虎一样重要的大事。若非如此，你就会陷人一场 
持 久战： 你竭力要记住新知识，大脑却竭力要把这些新知识踢出去。 

既然如此，如何让大脑像对待吃人的老虎一样对待统计学知识呢？ 

有两种办法，一种缓慢而乏味，一种迅速而有效。慢办法是简单记 
忆。你显然明白，只要不停地把同样的东西往大脑里灌，即使是最 



乏味的知识，也能学会、记牢。只要重复灌的次数足够多，大脑就会想：‘‘这些东西 
给他的感觉并不重要，但他不停地看这些相同的东西，一遍， -- 遍，再 -- 遍,_因此我 
猜这些东西肯定很重要。” 


快办法是做一切增进大脑活动的事，尤其是不同类型的大脑活动。上一页讲了很多 
这样的活动，事实证明，这些活动全都能促使大脑以有利于己的方式工作。例如, 
研究表明，将文字放在文字所描述的图片当中（相反的做法是将文字放在页面中的 
其他位置，如注释位置或正文位置），会促使大脑努力想搞清楚文字和图片之间的 
关系，进而发动更多神经元。更多神经元发动=更有机会让大脑明白某件事值得注 
意，可能还值得记住。 


对话式的写作风格对此很有帮助。人们在与人对话时注意力会更集中，原因是别人 
期待对方有所表现。令人惊讶的是，大脑不一定会在意“对话”是在人和书之.间进 
行！反之，要是写作风格了无新意，乏味枯燥，大脑的感觉就和在挤满消极听众的 
屋子里听演讲没什么 两样： 没必要保持清醒。 


不过，图形和对话式风格只是起步 
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如何使用本书 


我们的 傲法： 

我们使用丰富的阌片，这是因为，大脑追逐图像，而非文字。在大脑的活动中，一张图5^ 
片胜过千言万语。当同时使用图片和文字进行说明时，我们将文字填写在图片当中，当 4- 
文字岀现在它所描述的事物当中时，大脑的工作更有 效率； 相反，若将说明性文字放在 3. 
注释或其他正文当中，则无此效果。 2- 

我们使用反复论述法，即以不同的方式、通过不同的媒介对同一主题进行反复描述，给 1 1 
读者营造丰富的感受，目的是让这些主题有更多机会印在大脑的多个区域。 




sf 


条散鉍娓- 




1 2 3 4 5 


我们以出人意料的方式叙述概念和使用图片，因为，大脑追逐新鲜 事物； 我们在图片和 
创意中或多或少加人了一些情感性的内容，因为，大脑关注情感的生物化学反应。让 
人有所感触的东西更可能让人记住，即使这点感触不过是一丝幽默、一丝惊讶或一丝兴 
趣，也是如此。 

我们使用个性化的对话式写作风格，因为，当大脑认为你是在进行对话而不是在消极地 
听报告时，就会调整到注意力更集中的状态。即使在读书时，大脑也是这个习惯。 



我们安排了80多个活动，因为，相比读书，在做事时，大脑经过调整，能学会和记住更多 
东西。我们安排的练习有难度，但不会让人束手无策，这正是大多数人愿意做的练习。 

我们使用多种教学风格，因为，有的人可能喜欢一步一步按顺序来，有的人可能喜欢先 
看懂大图，还有一些人可能只想看看例子。我们将以多种方式反复讲述相同的主题，不 
管读者的个人爱好如何，都将因此受益匪浅。 

我们安排丫让左右脑半球分别负责的内容，因为，大脑开动部位越多，就学得越多，记 
得越多，注意力更持久。由于一侧大脑工作往往意味着另一侧大脑得到休息，左右半脑 
的分工合作使得长时间学习的学习效率得到提高。 

我们还安排了一些场景和练习，在场景中展现不同的观点，因为，当大脑被迫进行评估 
和判断时，会调整到深人学习状态。 


4 动笔 



重要银计 t 


我们在练习中安排了一些难点，即提出一些无法简单回答的问题。因为，你的大脑在不得 
不处理某件事情时，会调整到学习和记忆状态。开动脑筋吧，“光看别人做运动无法让自 
己体态健美”。别担心，我们尽力保证，你努力学习的都是该学的，你不会为了对付一个 
费解的例子或为了分析一段用词过于晦涩或行文过于简化的段落而多用一个脑细胞。 

我们以人物为例，把人物安排在场景、实例、图片等等内容中。至于原因嘛，因为你是人 
群中的一员啊，你的大脑对人比对事更关注。 
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序言 



把它 f 下束 
贴在冰箱上。 


你的 任务： 征服大胎 

我们的工作到此为止，剩下的就看你的了。从下面这些 
提示出发，顺从大脑的判断，看看哪些对你有用，哪些 
对你没用，尝试一下新事物吧。 


© 惺慢读。理解的内容越多，要记忆的内容越少。 @开口大声讨论。 


忌死读。停一停，想一想，碰到书中的提问 
时，别直接翻看 答案； 想象真的有人在问你 
这个问题。强迫自己的大脑想得越深，学会、 
记住的概率就越大。 

@ 自己做练习，自己记笔记。 

我们安排了练习和笔记，但是，要是我们替 
你完成，就像让别人替你锻炼身体一样。只 
动眼不动手也不可取，要动动笔。大量证据 
证明，学习时的身体动作能提高学习效率。 

@阅读“世上没有傻问题”部分 

世上没有傻问题。这些问题并非可看可不看， 

这是核心内容的组成部分！请勿忽略。 

(5) 通将下面这段话作为最后一段床头文字，或起码作 
为最后一段高深的床头文字。 

有一部分学习过程 （ 尤其是短暂记忆转变为长期 
记忆的过程）发生在放下书本之后，大脑需要有 
自己的时间进行更多处理。如果在这段处理时间 
内学新东西，将会丢失一些刚学会的 东西。 

© 大屋暍水。 

充沛的体液会让大脑处于 最佳丁 作状态，脱 
水（早在感到口渴前就会发生）则会让认知 
功能下降。 


说话会刺激大脑的其他部分。如果你正在努力理解 
一些知识，或正在努力增加以后记住这些知识的概 
率，请大声说出这些知识。还有一种更好的做法, 
试着向别人大声解释这些知识。你会学得更快，可 
能还会发现一些阅读时不曾发现的名堂。 

@聆听大脑的声音。 

留意你的大脑是否超负荷工作。若你发现自己开 
始心不在焉，或是刚刚读过的东西转眼忘记，就 
该休息。一旦过了某个学习点，哪怕拼命塞，也 
无法提高学习效率，反而有可能影响学习过程。 

@ 找到感觉。 

大脑需要知道事情是否重要。让自己融入各种 
场景，为照片设想旁注，就连抱怨一个并不好 
笑的玩笑，也比什么感觉都没有强。 

@勤加练习！ 

完全掌握统计学的唯一办法就是勤加练习，本书通 
篇部在引导你这样做。统计学的运用是一门技术， 
精于此道的唯一办法就是大量练习。本书将为你提 
供大量练习 机会： 每一章中都有一个等待你解决的 
问题，千万别跳过这些问题不看——大量学习都发 
生在解决问题的过程中。我们为每一个问题提供了 
答案，要是卡了壳（有些细微之处很容易给人带来 
麻烦），别不敢看！不过，请尽量先解决问题，然 
后再看答案’务必让你的办法行之有效，然后才继 
续看书中的下一部分内容。 
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如何使國本书 


本 书食逑 

本书是经验之谈，并非系统教材，我们故意抽掉了会妨碍讲述书中相关知识的东西。 
本书对你已经见识过和学习过的知识作了一些假设，因此第一次通读本书的时候，需 
要从头读起。 


我们从数据展示和汇总的基本方法讲起，讲至概率分布，再讲至假设检验等其他高级 
应用技术。 


尽管越往后的章节越重要，但起始部分却是后文的基石，图表绘制、均值计算，以及 
变异性的量度均在此列。因此，我们一开始就抛给你一些基本统计问题，这些问题其 
实是靠你自己解决的。如此一来，你就能立刻把统计学用起来，你将开始摩拳擦掌。 
在此之后，我们继续向你讲解概率和概率分布的运用，这时你将打下坚实的统计学基 
础，可以专心于学习概念。接着，我们讲解如何挥洒自如地运用所学知识，假设检验 
就是一例。我们瞄准时机为你提供合适的知识，这样的知识最有价值。 


我们所讲范围与 AP 与 A Level 的常规范围相同。 

尽管我们的关注重点是全面学习而非考试准备，但我们很好地纳人了 AP 和 A Level 课程的 
内容，因此，随着对本书的学习，你将深人领会各种等级考试的应知应会内容，通过这 
种方法学习统计学比死记硬背公式效果更好，因为你对于自己的需要充满自信，你知道 
什么时候需要使用这些知识，知道如何使用这些知识。 

我们通过在线资源为你提供帮助。 

通过与读者交流，我们得知你有时候需要一些特别的帮助，因此我们提供了一些在线 
资源，动动指尖就能访问。我们为你提供互动在线论坛、在线论文及其他资源。请从 
这里开始 访问： 

http :// www . headfirstlabs . com / books / hfstats / 
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序言 


活动井非可做可不做。 

练习和活动不是点缀，而是本书的核心组成部分。这些练习和活动有的是为了帮助 
记忆，有的是为了帮助加深理解，还有的是为了帮助应用所学知识，切勿忽略。唯 
一的例外是填字游戏，这不是非做不可，不过，填字游戏会让大脑得到在不一样的 
语境下思考所学到的单词和术语的大好机会。 
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深人浅出系列书籍有一个明显 特色： 我们希望你“真正”掌握学到的知识，我们希 
望你在看完本书的同时就记住学到的知识。大多数参考书都不把记忆和回忆当做一 
个目标，但本书的目标是“学会”，所以，常常会看到同一概念多次出现。 


“动动脑”练习没有答案。 

有一些“动动脑”练习没有标准答案，另有一些练习是为了让你判断自己的答案是 
否正确，以及在什么情况下会正确。部分“动动脑”练习给出了提示，为你指明正 
确方向。 
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第3 步： 用方便易用的概率表查找概率 349 
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爯谈正 态分布的运用 

超越正态 

但愿所有的概率分布都是正态分布。有了正态分布，日子好过多了——既能一口气 

查出整个范围的概率，又能留下点时间玩游戏，谁还会花时间一个一个地计算概率 
呢？在本章中，你将学习如何闪电般 解决更复杂的问题， 还将懂得如何将正态分布 
的便利运用 到其他概率分布上。 



双双登上爱情过山车 

363 

正态新娘+正态新郎 

364 

终究还是体重问题 
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综合体重符合哪种分布？ 

367 

求解概率 

370 

更多人想坐爱情过山车 

375 

线性变换描述了数据的基本变化…… 

376 

而独立观察结果描述的是你有多少数值 

377 

独立观察结果的期望和方差 

378 

接着玩，还是转身走？ 

383 

正态分布出手相救 

386 

何时用正态分布近似代替二项分布 

389 

再谈正态近似 

394 

二项分布是离散分布，正态分布则是连续分布 

395 

在计算近似值之前先进行连续性修正 

396 

组合访谈 

404 

大家坐上爱情过山车 

405 

何时用正态分布近似代替泊松分布 

407 

婚礼成功！ 
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X 
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统 i 十紬#的运阁 

抽取样本 

统计需要处理数据，数据从何而来？有时候数据很容易收集——例如参加一家健身倶 
乐部的人员的年龄，或一家游戏公司的销售数据；但有时候不太容易，这时候该怎么 
办？——当事件数量十分庞大时，很难决定该从何处着手收集数据。在本章中，我们 
将看看如何在实际工作中 成功收集数据 一有效地、正确地、省时省钱地收集数据。 
欢迎来到抽样天地。 



416 

417 

418 

419 

420 

422 

423 

424 

425 
430 

430 

431 

432 

432 

433 
433 
439 


曼帝糖果公司口味检验 
糖球吃光了 


对糖球样本而非糖球总体进行检验 
抽样方法 


当抽样有误时 


如何设计样本 


确定抽样空间 


样本有时会发生偏倚 


偏倚的来源 


如何选择样本 


简单随机抽样 


如何选取简单随机样本 
其他类型的抽样 
我们可以用分层抽样… 
或可用整群抽样…… 
或甚至可用系统抽样 
曼帝糖果公司有了样本 
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总体和样本 的估计 

进行预测 

得样本而知总体，不亦乐乎？若想成为样本专家，首先要懂得如何最有效地利用 
到手的样本——利用样本准确地预测总体，并以一定方式说明预测结果的可靠程 
度。在本章中，我们将讲解如何通过样本了解总体，以及如何通过总体了解样本。 



糖球口味到底能持续多久？ 

让我们首先估计总体均值 
点估计量可以近似总体参数 
让我们估计总体方差 

我们需要一个有别于样本方差的点估计量 
哪个公式用在哪里？ 

这是一个比例问题 
这和抽样有什么关系？ 

比例的抽样分布 
p s & 期望是多少？ 

P s w 方差是多少？ 

求解 p s 的分布 

P s 符合正态分布 

我们需要求样本均值的概率 

均值的抽样分布 

求又的期望 

又的方差是多少？ 

又如何分布？ 

当 n 很大时，又仍然可以用正态分布近似 
使用中心极限定理 


442 

443 

444 

448 

449 
451 
454 

459 

460 

462 

463 

464 

465 

471 

472 
474 
476 

480 

481 

482 
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1信 g 间的构建 

自信地猜测 

有时候样本无法给出足够正确的结果。前面讲到如何用点估计量估计总体均值、方 
差或一定比例的精 确值。 问题在于，你怎么能肯定自己的估计完全正确？毕竟，你 
仅仅依靠一个样本对总体作出假设，如果这个样本出问题怎么办？本章将介绍另一 

种估计总体统计量的方法 -种考虑 了不确 定性的方法。拿出你的概率表，我们 

将向你讲解置信区间的来龙去脉。 



第1 步： 选择总体统计量 
第2 步： 求又的概率分布 
第3 步： 决定置信水平 
第4 步： 求出置信上下限 
t 分布与正态分布比较 


曼帝糖果出事了 


精度引起的问题 


认识置信区间 


求解置信区间四步骤 


第1 步： 选择总体统计量 


第2 步： 求出所选统计量的抽样分布 


第3 步： 决定置信水平 


第4 步： 求岀置信上下限 


先求 Z 


用 M 改写不等式 
最后求又的数值 


你求出了置信区间 


步骤总结 


置信区间简便算法 


488 

489 

490 

491 

492 
492 
494 

496 

497 

498 

501 

502 

503 

504 

508 

509 

512 

513 
515 
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假设检验的运用 

研究证据 

他人的言论未必句句真实可信。问题是如何判断他人的言论何时真，何时假？假 
设检验为你提供了一种方法一利 用样本检验各 种统计断言是否可能属实。通过假 
设检验可 以权衡证据， 检验极限结果——是纯属 巧合， 还是存在其他内在根据？让 
我们一起阅读本章，看看如何利用假设检验证实或打消你内心深处的疑虑。 



统计邦新上市的神奇药品 

522 

纵观全局 

526 

假设检验六步骤 

527 

第1 步： 确定假设 

528 

第2 步： 选择检验统计量 

531 

第3 步： 确定拒绝域 

532 

第4 步： 求岀 P 值 

535 

第5 步： 样本结果位于拒绝域中吗？ 

537 

第6 步： 作出决策 

537 

如果样本增大会怎么样？ 

540 

让我们再进行一次假设检验 

543 

第1 步： 确定假设 

543 

第2 步： 选择检验统计量 

544 

在我们的检验统计中用正态分布近似二项分布 

547 

第3 步： 求出拒绝域 

548 

让我们从第一类错误讲起 

556 

再谈第二类错误 

557 

发现鼾克检验的错误 

558 

我们需要求数值范围 

559 

求 P (第二类错误） 

560 

认识功效 

561 
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X 2 分布 

继续探讨…… 

有时候事实与期望并不相符。当以一种特定的概率分布为某种情况建模时，对 
于事物的长期可能结果，你有十分清晰的想法。可如果 期望与 事实存在差别 
呢？你该如何判断？——这些偏差是正常波动，还是说明概率模型存在问题？本 
章将讲解如何利用 X 2 分 布分析结果， 排 除可疑结果。 


肥蛋赌场可能有麻烦 

568 

让我们从老虎机开始 

569 

用 X 2 检验评估差异 

571 

检验统计量代表什么？ 

572 

X 2 分布的两个主要用途 

573 

V 表示自由度 

574 

显著性是多少？ 

575 

X 2 假设检验 

576 

你解开了老虎机之谜 

579 

肥蛋遇到了新问题 

585 

5 C 2 分布可以检验独立性 

586 

可用概率求出期望频数 

587 

频数是多少？ 

588 

我们还需要计算自由度 

591 

自由度计算方法归纳 

596 

得出算式…… 

597 

你救了肥蛋赌场 

599 
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相兵乌锣归 

我的线条如何？ 

你是否曾经为某两件事的相亘关系困惑不已？前面讲过的统计量只描述一个变量 —— 

如个人身高、篮球队员得分或是糖球口味持续时间，但是，另外还有一些统计量可 
以说 明变量之间的关系。 了解事物的相互关系可以丰富你的信息，让你了解真相， 
使你立于不败之地。来吧，让我们为你介绍发 现事物关系的 秘诀： 相关与回归。 



让我们分析天晴时数和听众人数 

607 

数据类型探讨 

608 

二变量数据可视化 

609 

散点图为你指出模式 
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相关关系与因果关系 

614 

用最佳拟合线预测数值 
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最佳猜测仍是猜测 

619 
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621 

求最佳拟合线公式 
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求最佳拟合线斜率 

623 

求最佳拟合线的斜率，第二部分 
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你已经找出了关系 

629 

让我们査看一些相关关系 
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用相关系数量度直线与数据的拟合度 

631 

相关系数 r 有专用计算公式 

632 

求音乐会数据的 r 

633 

求音乐会数据的!"（续） 

634 
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附彔 I :尾声 

正文未及的十大拓展 

正文既已，余兴未尽。我们觉得还有一些内容是你需要知道的，对这些内 
容只字不提恐有不妥，不过，其实也只需要简单地提一提——我们诚挚地 
希望为你呈上一本厚薄适度的书，免得你为了捧起这本书学习还得先去健 
身中心练练臂力。因此，请先通读一遍这里的知识点，再合上本书。 



#1. 数据的其他表现形式 644 

#2. 分布剖析 645 

#3. 实验 646 

#4.最小二乘回归法的其他公式 648 

#5. 决定系数 649 

#6. 非线性关系 650 

#7. 回归线斜率的置信区间 651 

#8. 抽样分布一两个均值之间的差异 652 

#9. 抽样分布一两个比例之间的差异 653 

#10.连续概率分布的 E ( X ) 和 Var ( X ) 654 



附录 II : 统计表 

快来査表 

缺少值得信赖的槪幸褒该 »幺办？仅仅了解概率分布是不够的，有时还需要在 
标准概率表中查找概率。这份附录给出了正态分布、 t 分布和 X 2 分布的概率表, 
可在其中尽情查找各种概率。 



标准正态分布表 
t 分布临界值 
X 2 临界值 


658 

660 

661 


xxvii 


1 信崽慘形化 

命 

參第一印象* 



在为手头数据无法给出事情真相而发愁吗？ 

统计能化繁 为简， 帮助你让一堆堆令人困惑的数据发挥作用。当你发现 
数据的真相后，接下来就需要借助可视化的方法表现出来，使之公之于 
众。 为了找到最合适的图表完成这个过程，请你整理衣衫，带上最好的 
计算尺，和我们一起赶往“统计邦”吧。 


进入新的篇章 1 




欢迎来到统计邦! 


统计无 处不在 


网页浏览、运动竞技、游戏排名，但凡人们目光所及，处处皆有统计量。 
然而，究竟何为“统计”？ 

统计是这样一些 数字： 它们通过某种有意义的方式对原始事实和数字进行 
提炼，使得仅仅通过观察原始数据无法立即水落石出的一些理念得以昭示。 
这里的数据指的是我们能够据其做出结论的事实或数字。例如，若你只想 
知道自己心爱的球队在联赛中排名如何，大可不必辛辛苦苦地过目诸多赛 
事的得分记录，只需一个统计量，就能立即得到所需要的信息。 


对统计的研究 包括： 统计数据的来源、计算方法及有效使用方法并得出 



结论 


f 丹到数据后. 就 U 进行今祈 

: 你可刪 事件概 
f ， 预啦 U 可 ㈣ 
也可了解甚姿 ㈣ 的可信彦 


作预涮 


2 深入浅出统计学 


第一印象 


为何学3统 i 十学？ 

借助统计方法了解事实真相会令你能力过人，身手不凡 T 只要得到可靠 
的统计量，就能作出客观的决策.如有神助地进行精确地预测，以及以 
最有效的方式传达自己想传达的信息。 

统计可以成为提炼数据本质的一件法宝，然而也有需小心提防之处。 



统计以事实为基础，尽管如此，有时却具有误导性。利用统计，既可以 
昭告事实，也可以瞒天过海。问题是，如何才能判别自己所获悉的是事 
实，亦或是谎言？ 

好好掌握统计学将会使你处于有利地位，你将拥有更好的手段去判断统计 
量是否出错或产生了误导。换句话说，学习统计学是避免遭人愚弄的良策。 

请看 实例： 某公司去年下半年盈利情况。 


月份 

7月 

8月 

9月 

10月 

11月 

12月 

利润 （ 百万） 

2.0 

2.1 

2.2 

2.1 

2.3 

2.4 
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数据的差异表现 


9 月 10 月 11 月 12 月 
月份 


\ 



兩狀 D 都 .. i 间 一信惠志基础■外 
观却太相 径盛. 这是怎么® 1 ^ 


1 


公司每月利润 


2.5 厂 






9 月 10 月 11 月 12 月 
月份 


我们该怎么探讨针对同一批数据的这两种不同解释呢？——我们需要用某 
种方式直观地表现这些数据。说到信息的直观表现形式，最好的方法莫过 
于图表。图表是概括原始信息的便捷方式，能帮助你一眼得出初步 印象: 
不过要小心，即使最简单的图表也能神不知鬼不觉地迷惑你、误导你。 

下面这两张图体现了某公司6个月的赢利情况。它们都以相同的信息为基础, 
为什么外观差别如此之大呢？——它们以大相径庭的形式演绎同一信息。 



. 4.3 


2 . 


利润(百万美元) 



. 50 . 50.5 
2 . 2.1 .1 . 0 . 

利润(百万美元) 


4 深入浅出统计学 


第一印象 




世上没爷儍 问題 

|»):为什么不直接观察数据？干嘛要用图形表示7 | w ) : 信息与数据有何区别？ 

^ : 有时候只看原始数据无法明白就里。数据中隐^ : “数据”指的是所搜集的原始事实与数字。“信 

含着一些模式和趋势，仅仅观察堆积如山的数字很难把息”指的是加入了某种意义的数据。 

握这些模式和趋势。图形是发现数据隐含模式的一种有以数字5、6、7为例，单看它们本身，它们只不过是一些 
效方法。通过图形，数据得以直观地体现，使你一眼就数字，你并不知道这些数字有何含义、代表什么——这叫 
能看出数据的真正动向。 做数据；随后，如果有人告诉你，这是三个孩子的年龄， 

你就拥有了信息，因为这些数字现在有意义了。 
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动动笔解答 


第二秣 ® 给人禾间的邱象.函忌它的鉍鈾起点波 i 
了 重化， 标度也相应皮法了 重化.卞 一看.每个周 
埝利闽里得上涨显著.只唷细细査看，你豸会明白 
到麁是怎么回 f . 



这猓@淤以鈾从 2 . o 科 
抬 . 而 rt 从0丹抬.柽禾 
得利闽彖现也此惊人. 


公司每月利润 



7月 8月 9月 10月 11月 12月 

月份 



我忌升么要操心怎么画 ( U 啊？ 
制®麩件可4帮我们搞定一切 
它就派这用场. 


软件无法替你思考 


制图软件可以为你节省大量时间，生成有效的图表，但你仍需了 
解事情的来龙去脉。 

归根结底，这是你的数据。能否为自己的工作选择合适的图表， 
确保数据以最有效的方式展现出来并传达你想传达的信息，这取 
决于你。 

软件能够将数据转换成图表，至于图表是否正确，这得由你来保证。 


■ 


6 深入浅出统计学 





观察这两张图，你觉得主要区别在哪里？为什么这两张图会让人对数据 
形成如此不同 的第一 印象？ 




第一印象 


芒芒游戏公司霜要绘制 ©表 

芒芒公司是一家富有创意的游戏软件公司，如今在全球市场 
风头正劲。公司首席执行官受邀在下届全球游戏博览会上发 
表主题演讲，他需要用一些巧妙、直接的方法展示数据，于 
是找到了你，让你给他搞出这些东西。此事关系重大，若主 
题演讲发表顺利，芒芒将会得到额外赞助，而你呢，肯定会 
因为工作努力到手大笔奖金。 

首席执行官希望能够办到的第一件事是对各种游戏的满意玩 
家百分数进行比较。他已经动手用一些绘图软件处理过手头 
的数据，结果 如下： 

其他 

射击 1,500 
3,500 

动作 
6,000 


策略 
11,500 

各种游戏销屋 

动动膊- 

好好看看首席执行官生成的饼图。每一个小块代表什么？猜猜看，各种视频游戏的 
相对受欢迎程度如何？ 




芒芒游欢食旬 j 
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饼图分祈 


杲板的钳® 

“饼图”的作用是将数据划分为互有明显区别的几个组，或者叫做几 
个类。饼图为圆形，被分割为几个扇形块，每一块代表一个组（类）。 
扇形块的大小表示这类数据占总体的比例。扇形块越大，该组（类） 
的相对频繁程度越大。一个特定组中的对象数目称为频数。 

饼图将整个数据集划分为几个互不相干的组。这意味着，如果把每个 
扇形块的频数加起来，结果应为100%。 

让我们好好看看体现了各种游戏软件销量的 饼图： 


动作 

6,000 


策略 

11,500 


其他 这一块扇彤块比其他扇衫块小得多. 



体育 

27,500 

态每个底衫块 
标上频軚祝卞兮軚. 


射击^ 500 
3,500 


砰.这一矣滋成的搞 I 低得多. 


这一块扇彤块比其他所唷扇形块都 
要太得多•即，这一矣始麵麩 最高. 


种类 

销置（件） 

体育 

27,500 

策略 

11,500 

动作 

6,000 

射击 

3,500 

其他 

1,500 


各种游戏销屋 


邡么，钳搀什么时候有用？ 



前面讲过，每个扇形块的大小代表你所展示的每组数据的相对频 
数。因此，在想对基本比例进行比较的时候，饼图有用。通过与 
其他组进行比较，通常很容易一眼看出哪个组具有较高频数。当 
所有扇形块的大小相似时，饼图用处不大，因为这时难以根据扇形 


重要银计鵞 

频数 

“麵數”象示在一个特定 
租，或者说在一个特定区 
间兩的说计对象的數目， 
矣似子數數. 



块尺寸上的微小差别进行判别。 


那么，芒芒首席执行官创建的饼图有用吗？ 
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第一印象 


©形 遇挫 


看到创建一张饼图能如此出色地体现每种游戏的销量，于是，首席执行官 
决定再创建一张图，用以展现消费者对芒芒游戏的满意度。首席执行官需 
要这样一 张图： 能让他对每种游戏的满意玩家百分数进行比较。他再次用 
制图软件倒腾了一下数据，但是这一次，他感觉并不好。 



甚芒首4权行官 


怎么回事？所唷淤扇形块大 
小相近，俚所标示鲶 f 今數却各 
禾桐间，并且万今數數值都远远高子 
扇形块所占淤比例.你铋帮我处娌一下 
这採®吗？马上做行禾？ 


策略 

95% 


饼囿的作用是对不同组 （ 或者类）所占的比例进行 
比较，但在这个例子中，各个组的比例相差无几。 

很难一眼看出哪一类玩家的满意度最高。 

用与扇形块所占整体比例无关的百分数来标识饼图通 
常也会让人犯晕，例如，“体育”块标示着99%，但 
这一块在饼图中所占的比例仅为2096左右。另一个问 
题是，我们不知道每种游戏的反馈数目是否相等，因 
此也无法知道用这种方式对满意度进行比较是否公正。 


其他 体育 



动作 


85% 

每种游戏的满意玩家(％) 


饼團 

饨现 

比例 






看一看 数据， 想一想 这张图有什么问题。对于这种信息，用哪种图来表现更好？ 
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两类图形 


彔形® E 異鞲碥性 

体现这种数据的更好办法是使用条形图。就像饼图一样，条形图能让 
你对相对大小进行比较，但条形图还有这样一个 优点： 更精确。对于 
各个类的大小大致相同的情况，条形图是理想的图形，你能更精确地 
指出哪个类的频数最高，也更容易发现细小的差别。 

条形图中的每一个长方形代表一个特定类，长方形的长度代表某种数 
值。长方形越长，数值越大。所有长方形的宽度都相等，这样更容易 
进行比较。 

条形图可以是垂直的，也可以是水平的。 

垂疽 彔形® 

垂直条形图用横轴表示类，用纵轴表示频数或百分数。每个长 
方形的高度代表相应类的数值。下面这个例子体现了五个地区 
( A 、 B 、 C 、 D 、 E ) 的销量（件）。 


运是销量标屢. 


销 

量 

件 



各地区销置（件） 


销量(件) 


地区 

销置（件） 

A 

1,000 

B 

5,000 

C 

7,500 

D 

8,000 

E 

9,500 
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第一印象 


水乎彔形® 

水平条形图和垂直条形图一样，只不过两根轴对调了一下。水平条形 
图用纵轴代表类，用横轴代表频数或百分数。 


下面是用第9页上首席执行官的各类游戏满意玩家数据生成的水平条形 
图。如你所见，利用这张图能更快、更容易地衡量哪一类的数值最高, 
哪一类的数值最低。 

每种游戏的满意玩家(％) 


祈磺长方衫都 
务水年长方形 

体育 




毐条长方彤 
代'表一个/ 
湓戏种真. 


策略 


_动作 


射击 


其他 



0 10 20 30 40 50 60 70 80 90 100 

满意率 （ ％ ) 


每备长方彤的长屢代表对该 
种趨碑满砉的虼家蝣百今數 


满意率 （ ％ ) 


种类 

满意率 （ ％ } 

体育 

99% 

策略 

90% 

动作 

85% 

射击 

95% 

其他 

80% 


.卞作象务 • 


垂直条形图更常用。不过，如果类名称太长，水平条形图就有用了—— 
你将有大量空白位置标示每个类的名称，不用横七竖八地进行摆布。 
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标度 


标度的影响力 

懂得利用“标度”能让你创建强大的条形图，凸显你希望别人注意的主要 
事实。不过，小心哦——标度同样能隐匿与数据有关的重要事实。下面让 
我们看看具体情况。 


使用苔分数标度 


让我们先来好好看看体现每种游戏的玩家满意度的条形图。横轴表示玩家 
满意度百分数，即每100个人中有多少人对这款游戏感到满意。 


每种游戏的满意玩家(％) 



□ 满意率 （ ％ ) 




这是 T 舍數 


满意率 （ ％ ) 


这张图的目的是让我们对不同的百分数进行比较，还能从图中读出百分数。 


只是有一个问题——图中没有告诉我们每种游戏有多少玩家。这听起来好 
像不是特别重要，但意味着我们无法知道这张图反映的是所有玩家的看法 
呢，还是部分玩家的看法，或甚至只是屈指可数的几个玩家的看法。换句 
话说，我们无法知道这能在多大程度上代表“玩家”这个整体。在设计以 
百分数为表现内容的图形时，请考虑这样一条黄金 定律： 设法指出频数—— 
或是将频数标在图形中间，或是标在图形旁边，均可。 



若只有百分数而没有频数，或只有频数而没有百分数，那可干万要小心。 


有时候，这是 一种用 来隐藏基础数据真实情况的伎俩，因为仅靠一张图无法判断这张图能在多大 
程度上代表整个数据。你可能会发现，有很大比例的人青睐某种特定游戏类別，但受到调查的仅 
有10人；或者，你可能会发现，有10,000个玩家最喜欢玩的是体育游戏，但仅通过这个数据无法 
判断这个人数在所有游戏玩家中占有的比例是高还是低。 


12 深入浅出统计学 







第一印象 


使用频数标度 


你可以用频数标度代替百分数标度。这样大家就很容易看出确 
切的频数，进而对数值进行比较。 


每种游戏的满意玩家人数 



满意人数 


□ 满意人数 _1 

这银棘 

<f 〆 娩人数，而沾 f 兮鉍. 


通常，标度以0为起点。但要小心！并非每张图都是这么做的，正如第 
6页看到的，使用不以0为起点的标度可以让数据给人不同的第一印象， 
查看别人绘制的图时，要小心这一点，这很容易让你无视某些数据, 
从而对数据形成错误的印象。 



有一些 绘囫方法能够绘制出表现形式更员活的条形图。 

以上这些条形图的问题是，它们或是显示满意玩家的人数，或是 
显示满意玩家的百分数——但仅仅显示了 “满意玩家”的情况。 

让我们看看如何解决这个问题。 
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一张图形，两批数据 


处理多粃数椐 

实际上，通过条形图能够轻而易举地在同一张图形上展现多批数据。举个 
例子： 我们可以将满意玩家的频数和不满意玩家的频数都画在同一张图上。 


堆积彔形搀 

解决这个问题的一个办 法是： 针对每种游戏， 
用一条长方形代表这类游戏的满意玩家频数， 
用另一条长方形代表这类游戏的不满意玩家 
频数。当你想 比较频数时， 这种图很有用， 
但通过这张图难以看出比例和百分数。 


每种游戏的满憲玩家 



频数 


分段条形樹 

若要同时体现频数和百分数，可以试试“分 
段条形图”。这种图用一整段长方形代表一 
个类，但可以按比例把这一整段长方形分割 
成几小段。长方形的整体长度反映岀整体 
频数。 

通过这种图可以迅速看出每个类的总频 
数——在我们的例子中即每种游戏的玩家 
总数； 可以看出满意玩家的 频数； 还可以 
一眼看出比例。 


每种游戏的满雇玩家 



□满意 
■ 不满意 


E 3 满意 
■ 不满意 
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首席执行官需要为主题演讲绘 制另一 张图。下面是数据，看你能不能画一张条形图。 


大洲 

销置(件） 

北美洲 

1,500 

南美洲 

500 

欧洲 

1,500 

亚洲 

2,000 

大洋洲 

1,000 

非洲 

500 

南极洲 

1 



这是软件生成 的另一 张图。显示 2007 年哪种游戏卖得最好？这 
种游戏在 2006 年销量如何？ 


各种游戏销置 


种 

类 


体育 

策略 

动作 

射击 

其他 




0 5000 10000 15000 20000 25000 30000 


销量（件） 


| 2006 
| 2007 
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练习解答 


■il _ m 

I|Bb|H^^BH9 



动动笔 
^ 解著 


这是软件生成的另一张图。显示2007年哪种游戏卖得最好？这 
种游戏在2006年销量如何？ 


各种游戏销置 


种 

类 动作 




2007年钵會雄戏销 " flliJ , 售出27,500件. 
这种嵙戏在 2 00 6 卑只售出 M , 000件.并禾 
多.策硌雜戏在2006卑蜣镅 i ■窩子其他银 
戏种矣. 


5000 10000 15000 20000 25000 30000 


销鼉（件） 
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第一印象 


你的彔形®闪亮登场 


首席执行官对你画出的条形图赞赏不 
已一但他还需要在主题演讲中报吿 
更多数据。 


十得 胳!这些 ( S 会在傅览会上闪闪皮光.现在再 
给你一个值务，我们祷一群志4者对新趨戏迸行 
了测试，需要用一採 ( S 束雇现毐局雜戏鲶得今倩 
况.麩据 也下： 


趨我得今在 0-999 之同， 
得今數据禎 舍成此 个组. 
例办，得今在 0- 7 99 
范®啕始次教志 5 ~~' N ^ 


得分 

频数 

0-199 

5 

200-399 

29 

400-599 

56 

600-799 

17 

800-999 

3 


频數浍得兮在其个 
范®中电现淤玫軚. 



这喽數据看上去禾间子我们之前看到 it 
鲶其他真型的數据.这是禾是说我们要用禾 
间蛛办注进行处娌？ 








动动膊 


请回头浏览本章内容。你觉得这些数据和前面的比有什 
么不同吗？你觉得这种不同会对图形产生什么影响？ 
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类别数据与数值型数据 


类别乌数字 

使用图形时，其中一个重要事项是弄清楚所处理的是哪一类数据。只要搞清楚这一点， 
你就会更容易决定哪一种图表能够最好地体现你的数据。 


类别数椐 (定性数提) 

目前我们讲过的大部分数据都是类别数据。数据被划 
分为各种类别，用以描述某类的性质或特征。因此， 
类别数据也称为定性数据。游戏种类就是定性数据的一 
个实例——每个游戏种类形成一个独立的类別。 

关于定性数据，请记住一个 重点： 不能将数据值理解 
为数字。 



数值型数据（定曼数椐） 

数值型数据不同，它所涉及的是数字。数值型数据中的 
数值具有数字的意义，但还涉及计量或计数。由于数值 
型数据描述的是数量，所以也称为定量数据。 




时询 


这对芒芒的图形有什么影响呢？ 
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处理分组数椐 

芒芒首席执行官给我们的最新数据是数值型数据，另外，这些得 
分被分为几个组，放人不同的区间。那么，最好用哪种办法为这 
类数据绘制图形？ 

( 这逞禾 容易，不就是用先 
> 前用过的那种条彤®吗？ 

( 我们可把每 个组去 作一个 

独立蜣真别. y 


可是可以，但还有更好的 办法。 

我们可以不把每一个得分范围作为一个独立的类别，而是利用手 
头数据是数值型这一特点，用连续的数字标度体现数据。也就是 
说，我们不是用长方形表示一个项，而是用长方形表示一个得分 

范围。 

为此，我们可以创建直方图。 

直方图与条形图外观相似，但有两个重大区别。第一，每个长方 
形的面积与频数成 比例； 第二，图上的长方形之间没有间隔。下 
面是一个直方图实例，显示了统计邦中的每户人家每月购买游戏 


得今场感數 
宫.并禎今 ^7 
志几个组, 

敘 入禾同 g 同. 


得分 

頻数 

0-199 

5 

200-399 

29 

400-599 

56 

600-799 

17 

800-999 

3 



的平均数目。 



游戏数目 


第1章 信息图形化 19 




建立直方图 


绘制盜方® 起步： 求出长方形 t 度 


创建直方图第 一步： 查看每个区间，求岀每个区间的宽度，以及每 
个区间涵盖的数据 范围。 同时，要确保直方图的各个长方形之间没有 
间隔。 


让我们从前两个区间 开始： 0-199 和200-399。从表面数值上看，第一 
个区间的终点是199分，第二个区间的起点是200分。不过，要是这样 
画图的话，问题就 来了： 199和200之间将出现间隔，如下 所示： 







199 200 


直方图的长方形之间不该有间隔。因此，为了解决上述问题，我们把 
以上范围稍微扩大一点儿。我们不要让第一个区间在199结束，也不 
要让下一个区间从200开始，而是让两个区间在 199.5 会合，如下 所示： 

礙為卜， 

199.5 


这样就形成了一条唯一边界，确保直方图的长方形之间没有间隔。依法 
炮制其余区间，可得到下列 边界： 


得分 

頻数 

0-199 

5 

200-399 

29 

400-599 

56 

600-799 

17 

800-999 

3 



0-199 200-399 400-599 600-/99 800-999 


-0.5 199.5 399.5 599.5 799.5 999.5 


每个区间涵盖200个 得分； 每个区间的宽度为200;每个区间宽度相同。 

由于所有区间宽度相同，我们这样创建直 方图： 为每一个得分范围绘制 
垂直长方形，使用边界作为每个长方形的起点和终点。每个长方形的髙 
度等于频数。 
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第一印象 


% 


下面是芒芒公司的数据备忘表。 


得分 

頻数 

0-199 

5 

200-399 

29 

400-599 

56 

600-799 

17 

800-999 

3 


看看你是否能利用这些边界为以上数据创建 一张直 方图。记住，频数位于纵轴上。 
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练习解答 


m 


斛著 


下面是芒芒公司的数据备忘表。 


得分 

频数 

0-199 

5 

200-399 

29 

400-599 

56 

600-799 

17 

800-999 

3 


看看你是否能利用这些边界为以上数据创建一张直方图。记住，频数位于纵轴上。 
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世上没布儍问题 


第一印象 


( o ) :这么说，直方图基本上是用来体现分组数值 
型数据的？ 

^: 是的。它的优 点是： 由于是数值型图形，所 
以可以体现每个区间的宽度，还可以体现频数。 

f 5 ) :如果各个区间的宽度不同会怎么样？还能使 
用直方图吗？ 

^: 完全可以。区间宽度相同是较为常见的情 

况，但直方图上的区间并不是非相等不可。对于区 
间不等的直方图，创建步骤要多两个——我们很快 
会介绍创建方法。 

|»):直方图的长方形之间为什么不能有间隔？ 

^: 至少有两个有力的理由。第一是为了体现出 
数值之间没有间隔，每个数值都包含 在内； 第二是 
让区间宽度反映出所涵盖的数值的范围。例如，要 
是我们从0到199画出 0 — 199 这个区间，图上的宽度 
就是 199-0=199。 


(») :我们为什么要让长方形在两个数值的中间会 
合呢？ 

^ : 长方形必须会合，而且通常在中间位置会 
合，但最终取决于所采用的舍入方法。在取整时， 
你通常会取离数值最近的整数，这就是说，从 -0.5 
到 0.5 这个范围内的所有数值都会取整为0，于是，当 
我们在直方图上表示0时，我们就用从 -0.5 到 0.5 这个 
范围来表示0这个数。 

|»):有例外吗？ 

^: 有，年龄就是个例外。如果你要在直方图上 

表示 18-19 这个年龄范围，通常会用 18-20 这个区 
间来表示。原因是，以19岁为例，在某人过20岁生 
日之前，我们通常会把他归入19岁。所以，我们用了 
向下取整。 


要点 

■ 频数是一种统计方法，用于描述一个类别中有多少 
个项。 


垂直条形图用于展现数值型数据； 若类别名称不 

长，也用于体现类别数据。 


■ 饼 图能很好地体现基本比例。 

■ 条形图更 灵活、 更 精确。 

■ 数值型数据涉 及的是数字和数量； 类别数据 涉及的 
是表述和质量。 

■ 水平条形图用于展现类别数据，尤其是在类别名称 
太长的时候。 


■ 可以在一 张条形图上体现多批数据， 具体做法可由 

你选择。可以使用堆积条形图，让相互关联的长 
方形并列显示，借此比较频数；可以使用分段条形 
图，把长方形一个一个衔接起来，借此显示比例和 
总频数。 

■ 条形图标度可 以是百分数，也可以是频数。 

■ 每张图都变化多端。 
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不等宽区间问题 


芒芒游 戏公司 ts 另 菡一© 


首席执行官对你为他创建的直方图很是喜欢，所以，他想要你为他另 
外创建一张直方图。这一次，他想让直方图显示芒芒玩家在24小时内 
通常有多长时间在玩网络游戏。下面是 数据： 




小时 

频数 

0-1 

4,300 

1-3 

6,900 

3-5 

4,900 

5-10 

2,000 

10-24 

2,100 


这4矻这么长时同 
匕一鶸我淤故家额數 



他说对了，区间宽度并不都相同。 

只要看看这些区间，就能看出它们具有不同的宽度。例如， 10-24 这 
个范围涵盖的小时数远多于 0-1 这个范围。 


如果我们有办法得到原始数据，就可以看看如何设法构建等宽区间, 
但遗憾的是，我们所拥有的全部数据都在这儿了。我们需要找到这样 
一种绘制直方图的 方法： 容许数据区间具有不同宽度。 





直方图的特 点是： 频数与每个长方形的面积成比例。你 
会如何利用这一点为以上数据创建直方图？你需要知道 
些什么？ 
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第一 •印象 


7000 
6000 
5000 

^ 4000 

数 

3000 
2000 
1000 
0 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 

小时 

盗方樹的长方形涵积必颔乌频数成比例 

这张图的问题是，为了让每个长方形的宽度反映出每个区间的宽度， 

结果造成一些长方形看起来超大，比例失衡。乍一看，你可能对人 
们每天玩游戏的实际时间心生误会。例如，面积最大的长方形是显 
示玩游戏时间在 10-24 小时之间的长方形，但大部分人并不玩这么 
长时间。 

由于这是一张直方图，我们需要让长方形面积与长方形所代表的频 
数成比例。长方形的宽度不相同，我们该怎么处理长方形的高度呢？ 
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调整长方形面积 


让 疽方® 长方形的面积乌频数成 fct 例 

到目前为止，我们已经能用长方形的高度表示特定数字或类别的 
频数了。 

这一次，我们要处理分组数值型数据，这些数据的区间宽度各不 
相等。我们当然可以让每个长方形的宽度反映每个区间的宽度， 
可是这种做法的问 题是： 长方形具有不同宽度，这会影响每条长 
方形的总面积。 

我们需要确保每条长方形的面积与频数成比例。这意味着，只要 
我们调整长方形宽度，就要同时调整长方形高度。如此一来，就 
能在改变长方形宽度——最终使其反映分组宽度的同时，保持长 
方形的面积与频数相吻合。 


直冇圏的特点是： 

长冇彬面 賴表示 频黻。 


让我们看看如何创建一张新直方图。 

第1 步： 求长方形 t 度 


看看长方形所覆盖的数值范围，就能知道长方形应该有多宽。换句 
话说，我们需要求出每个组中包含多少个“整小时”。 


让我们取出 “1-3” 这个组。这个组包含2个整 小时： 1- 2和2-3。 

这表示长方形的宽度必须为2,边界为1和3。 

租中舍痏 2 个整 小时. 所4宽度狀 


这是、 


租. 


100 200 300 

算一算其余宽度， 得出： 


小时 

频数 

宽度 

0-1 

4,300 

1 

1-3 

6,900 

2 

3-5 

4,900 

2 

5-10 

2,000 

5 

10-24 

2,100 

14 


算出长方形宽度后，就可以接着求高度了。 
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第一印象 


笫 Z 步： 求长方形窩度 

求出所有组的宽度后，就可以利用这些宽度求出长方形应该有的 高度。 

別忘了，我们需要调整长方形高度，使得每个长方形的整体面积与相 
应组的频数成比例。 

首先，让我们定下每个长方形的面积。前面说过，频数等于面积。由于 
我们已知每个组的频数，也就知道面积 应该是 多少： 數权们/科枱就知1 
长方形面积=每组频数 〆 支祆 们知道 0 妨面枳異-冬 L 

现在每个长方形基本上就是一个矩形，这意味着每个长方形的面积等 
于宽度乘以高度。由于面积等于频数 ，即： 

频数=长方形宽度 X 长方形高度 

我们在上一步求出了长方形的宽度，于是，可以用这些宽度求出每 
个长方形的高度 。即： 

频数 

长方形高度=- 

长方形宽度 

长方形高度用于量度一个特定组的频数 的集中程度， 是对频数密集 
度的一种量度，是用于说明数字到底是“稠密”还是“稀薄”的一 
种 方法。长方形的高度称 为频数密度。 


面扭=频數 



-动动笔 


每个长方形的高度应该是多少？填写下列表格。 


小时 

频数 

宽度 

高度 （ 频数密度 } 

0-1 

4,300 

1 

4,300 + 1 = 4,300 

1-3 

6,900 

2 


3-5 

4,900 

2 


5-10 

2,000 

5 


10-24 

2,100 

14 



第1童信息图形化 27 





















绘制直方图 


解奢 


小时 


频数 


宽度 


高度 （ 频数密度） 


4,300 


= 4,300 


6,900 


6,900 + 2 = 3,450 


4,900 


4,900 + 2 = 2,450 


-10 


2,000 


2,000 + 5 = 400 


10-24 


2100 


., 100 ^- 14=150 


第3 步： 菡出疽方® 


下面是经过修订的直方图。 


每天游戏时间 


求出每个长方形的宽度和高度之后，就能両出直方图了。両图方 


法和以前一样，但这次，我们为纵轴标上频数密度，而非频数。 


5000 


表示1000天 


4000 


频 

数 3000 

密 

度2000 


唷了这个 (£1 例，歲容易看 
出面积代表鲐意思.这 
个邊!例可用可不用^ 


看.表汸肜么 


现在.长方械占 
面轵与軚掂成也例 


表方彤基子達績 
齩宫标度给制. 


尽營长方形彳鲶频数更高.但 
实陈上，它鲶频数密度却低子 
0-7 这个长方形鲶频數密度。 
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第一印象 


频数密度指的是数据中的数值密集度。频数密度与频 


数有关，但并非同一事物。下面用一个比喻来说明二 
者之间的关系。 

想像一下，你有一些果汁，并将这些果汁倒进玻璃 
杯，如图所 7 K : 



频数黎度0 缈隶 



^__这是装在破璃钚中淤金都 
票汁.它鹼決伖在这 f . 


要是把相同分童的果汁倒入另一个不同尺寸玻璃杯（假 
定“宽” 一点儿），情况如何呢？果汁液位有何变化？一 
图中的玻璃杯宽一点儿，因此果汁液位降低了。 

果汁液位随着玻璃杯的宽度发生变化，玻璃杯越宽，液 
位 越低； 反之亦然一玻璃杯越窄，果汁液位越高。 



破嬌秌更 
^/宽， （§ 此 

洗值不也庳 
束銪么高. 


那幺，果汁与频数密度有什么关系？ 

果汁 s 频数 

这样 想像： 你不是在向玻璃杯中倒果汁，而是在把频数“倒人”图 
形中的长方形。正如你知道玻璃杯的宽度一样，你也知道长方形的宽 
度； 正如果汁在玻璃杯中占有的空间（底面积 X 高）等于玻璃杯中的 
果汁的分量，图中的长方形的面积等于其频数。 

这样一来，频数密度就等于长方形的高度，接着使用上面的比喻，这 
个高度就等于果汁在每个玻璃杯中的液位。较宽的玻璃杯意味着果汁 
会达到一个较低的液位，而较宽的长方形意味着频数密度会较低。 
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要点及世上沒有傻问题 


要点 

■ 频数密度指 的是分组数据中的频数的密集度。计算 
方法 如下： 


频数密度= 


频数 

组距 


度——而不是频数。 

绘制直方图时，每个长方形的宽度与其分组宽度 
( “组距” ） 成正比例。长方形按照连续的数字标 
度绘制。 


■ 直方 图是一 种专门用于体现分组数据的图形。它看 
起来很像条形图，但每条长方形的高度等于频数密 


直方图中的每个组的频数通过长方形面积求出。 
直方图的长方形之间没有间隔。 


世上没<傻问题 


(») : 画直方图时，为什么用面积代表频数？ 

^: 这样做可以保证每个组的相对大小与数据 
成正比例，且不失真实。处理分组数据时，我们需 
要通过一种直观的方法体现每个组的宽度及频數。 
改变长方形宽度是一种反映分组范围的直觉方法， 
但这种方法有一个副作用——会使一些长方形看起 
来比例失衡 c 

调整长方形高度并用面积表示频数，这是解决以上 
问题的一个办法。有了这个办法，大家就不会由于 
某个组占用了太多或太少空间而产生错觉。 

f 5 ) :什么又是频数密度呢？ 

^: 频数密度是表示某个特定区间中的数据密 
集度的一种方法。通过这种方法可以对宽度可能有 
差别的几个区间进行比较。在这种方法中，频数与 
长方形的面积成正比例，而不是与高度成正比例。 

为了求出频数密度，应取出这个区间的频数，用它 
除以宽度。 


1»): 如果我已经将数据分组，但所有的区间都具 

有相同宽度，我能使用普通的条形图吗？ 

^: 使用直方图能更好地体现你的数据，因为 

你还要接着对分组数据进行处理。你确实需要让频 
数与面积成比例，而不是与高度成正比例。 

1»):直方图“必须”体现分组数据吗？能不能用 
于体现 一个个 数字及 一批批 数字？ 

^:能。主要记住这 一点： 确保长方形之间没有 
间隔，以及每个长方形的宽度均为1。为了实现这一 
点，通常可将数据中的数字放在长方形的中央。 

例如，如果要画一个长方形代表单独的数字1,则必 
须画一个范围为 0.5 到 1.5 的长方形，1位于这个范围 
的中央。 
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下面这张直方图体现了每 打一局“疯狂 奶牛”游戏达到的级数。总共打了几局游戏？假定每 
一级为一个整数。 



每局游戏达到的级数 



至 0.5 代表 0 级 （3 忌这个 级别 

范®啕始所唷數值场取整糸 0 . 


代表10局游戏 



练习解答 


代表10局游戏 


每一级都 I 一个整 
軚.函此第 3 级淤长 
方形范凼洽 2 . 5 至 3 . 5 - 



下面这张直方图体现了每 打一局 “疯狂奶牛”游戏达到的级数。总共打了几局游戏？假定每 


-级 为一个 整数。 


每局游戏达到的级数 


-1 0 1 2 3 4 5 6 

级別 

我们需要求出虼趨戏淤总届數.也就是说，要尔出总麵數. 

总频數筹子毐个长方#紿面积之和. （3 此，我们要用每个长方形蜣宽虞乘 " i 该长方形的麵數密廋，得 
出麵數，迷后将祈唷麵數桐加. 


_ 

宽度 

麵數密度 

減 

0 

1 

10 

U 10 = 10 

1 

1 

30 

U 30 = 30 

2 

1 

50 

U 50 = 50 

3 

1 

30 

1 x 30 = 30 

4-5 

2 

10 

2 x 70 = 20 


总麵數= 70 + 30 + 50 + 30 + 20 
= 740 


o 

5 


o o o 

4 3 2 

频数密度 
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第一印象 


疽方®吞非无所不能 

尽管直方图在显示分组数值型数据方面表 
现出色，但还有几种数值型数据用直方图 
表现并不理想，比如不断在原有总和上增 
加新值而得出的“累计总和”…… 


让我们看看能不能帮帮首席执行官。下 
面是我们曾经画过的直 方图： 


我真希望铖够一眼看虫唷多少人鲶潘戏时同少子 
其个數宫.比也，我禾要看唷多少人淤雜戏时同 
在 3 _ 5 小时 " irt , 而要画一徕®体现唷多少人蜣 
雄戏时同少子5小时，行得 通吗； 


5000 + 


4000 

频 

g 3000 

密 

** 2000 + 


1000 


0 


每天游戏时间 



表示1000天 


特定射表 ㈣ 料 ㈣ 別 祕. 


H -!-»-1-1-1- 1- 


01 3 5 10 

要在这张图中一眼看出各项累计总和，颇需要费一番周折。 
为了求出游戏时间在5小时以内的玩家的频数，我们需要将各 
种频数加起来。我们需要另一种图形……哪一种呢？ 




24 

小时 



:动动膊 


你认为我们该在图上显示哪些信息呢？该画哪些信息？请写下答案。 
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累积频数图 


汄识累积频数 

首席执行官希望有某种图形能向他显示某个特定值以内的频数 
之和——累积频数 3 提到累积频数这个术语时，我们基本上 指 / t ;^^ 

的是累计总和 （ 向原来的总和中增加新值得出的总和 ）。 s 



我们需要画出这样 的图： 用横轴表示时间（小时），用纵轴表 
示累积频数。通过这张图，首席执行官就能取一个值，并从图 
上读出到这个数值为止的相应累积频数。他将能求出游戏时间 
在5小时内、6小时内或他最感兴趣的任意小时内的人数。 


累加到其个数值态止淤总麵 
數.基#上是所唷频數的累 
计总和. 


在动手画图之前，我们需要知道到底要在图上画些什么——我们 
需要计算已知的每个区间的累积频数，还要求出每个区间的上限= 

让我们看看数据，开工！ 

那么，累积频数是多少？ 

首先，让我们假定首席执行官需要画出1小时以内的累积频数（或者 
叫总频数）。只要我们看看数据就知道， 0_1 组的频数是4300,还 
能看出1是该组的上限。即，在1小时以内，累积频数为4300。 


小时 

频数 

0-1 

4,300 

1-3 

6,900 

3-5 

4,900 

5-10 

2,000 

10-24 

2,100 


% 

这是數据. 


接下来，看看3以内的总频数。我们已知 0-1 组和 1-3 组的频数，3 
是又一个上限。为了求出3以内的总频数，我们将0 - 1组和 1-3 组内 
的频数加起来。 


看出某种模式了吗？如果我们取每个组的上限（小时），将这个上 
限以内的各个频数相加，就能求出至该上限为止的总频数，以此类 
推， 得出： 


小时 

频数 

上限 

累积頻数 

0 

0 

0 

0 f 

0-1 

4,300 

1 

4,300 

1-3 

6,900 

3 

4,300+6,900 = 11,200 

3-5 

4,900 

5 

4,300+6,900+4,900 =16,100 

5-10 

2,000 

10 

4,300+6,900+4,900+2,000 = 18,100 

10-24 

2,100 

24 

4,300+6,900+4,900+2,000+2,100 = 20,200 


加數 

含少子04*时 • 
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第一印象 


绘制累积频数® 

既然已经有了各个上限和累积频数，我们就能在图上画出这些数据 
了。画两条轴，纵轴代表累积频数，横轴代表小时数。画好后，根据 
上限及与之对应的累积频数画出各个点，然后用一条线将这些点连起 
来，如 下图： 



累积频数决不 
会减小。 


只要发现累积 
频数开始减小，就应检查 
计算方法是否正确。 


游戏时间累计总和 



以，二 n 


动笔 


首席执行官想让你求出人们在线游戏时间在4小时以内的发生次 
数。看看能不能用累积频数图估计这个值。 
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动动笔解答及世上没有傻问题 


%】 


卷 


解箸 


7 3750 



首席执行官想让你求出人们在线游戏时间在4小时以内的发生次 
数。看看能不能用累积频数图估计这个值。 

态此，我们在横鈾上找刭 4 ,找剎这个数值与®钱鲶麦 
A . M 后该出鉍鈾上鲶相应累积麵数. 

由此得出答案约态》3,7 5 0.摟言之，在钱趨我时间在4 
小时 》1 南的钧唷7 3,750攻. 


世上没€儍问题 


(») :什么是累积频数？ 

答:某个数值的累积频数即到这 
个数值为止 （ 包括这个数值在内）的 
频数总和。通过累积频数可知到该 
数值点为止的总频数。 

例如，假设你有一些人的年龄数据。 
数值27的累积频数表示到27岁（包 
括27岁在内）为止的人有多少。 

|»):累积频数只是用于分组数据 
吗？ 

^ : 完全不是。累积频数可以用 
于任何数值型数据。关键是，你想 
知道的是到某个特定数值为止的总 
频数，还是对特定数值的频数更感 
兴趣。 


|»): 有些图形可以在一张图上显 

示多批数据。累积频数图行吗？ 

^ : 可以。在累积频数图上可以 
这 样做： 为每一批数据绘制一条单 
独的线条。例如，如果你想按性别 
比较累积频数，就可以画一条线表 
示男性，另画一条线表示女性。将两 
条线画在同一张图上效果会好得多， 
可以更容易地比较两批数据。 

|»): 在同一张图上绘制的线条的 
数目是否受到限制？ 

答： 没有什么特别的限制，这完 
全取决于你的数据。但图上线条过 
多会显得拥挤，这时无法在图上读 
出累积频数，也无法比较各个批次 
的数据，因此不要画过多的线条。 


|»):请 提醒一 下我，如何求出某 
个数据的累积频数7 

^: 可以直接从图上读出累积频 

数：在横轴上找到要求其累积频数 
的数值，找到这个数值与累积频数 
曲线的交点，然后从纵轴上读出累 
积频数的数值。 

1»):如果已知累积频数，能通过 
图形求出相应的数值吗？ 

^ : 能。在纵轴上找到要求其数 
值的累积频数，找到这个累积频数与 
累积频数曲线的交点，然后读出相应 
横轴数值。 
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80-99 


55-79 


40-54 


25-39 


18-24 


-17 


频数 


累积频数 


年龄组 


练5 


在芒芒游戏公司的主题报告中，首席执行官想说明他要如何定位特定的年龄组。他有显示年 
龄累积频数的累积频数图，但他同时需要显示频数。可一只狗吞吃了写有这些频数的纸张。 
看看你是否能用累积频数图估计出每个组的频数。 


这里妫上限态 7 s . 函為其人从迸入7岁丹始刭年 
涑岁态止均禎去作； 7 岁.卑龄通索向下取整， 


一印象 


累积频数 
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练习解答 


5000 


2500 


0.0 


mm 


0-17 


2,000 

2,000 

18-24 

25 

4,500 

4,500-2,000 = 2,500 

25-39 

40 

6,500 

6 ^ 500 - 4,500 = 2,000 

40-54 

55 

8,500 

8 , 500 - 6,500 = 2,000 

55-79 

80 

9,400 

9 , 400 - 8,500 = 900 

80-99 

100 

9,500 

9 , 500 - 9 , 400=100 




年龄组 

上限 

累积频数 

频数 




累积频数 
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第一印象 


选择 i £ 碥的 ©形 


首席执行官对你绘制的累积频数图满意极了，你的奖金即将落袋为安。他已 
经快完成主题报告的准备丁.作，只差最后 一图： 芒芒公司与主要竞争对手利 
润对比图。他该用哪种图呢？ 
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练习解答 



种_取决子所要强 


eoo , 麵 （美元) 



这张°折线图”更好地体现出每家公司的 
年度利润趋势。两家公司的趋势线都很明 
确，我们很容易就能看出他们的利润 模式： 
芒芒公司的利润爬升顺利，而竞争对手的利 
润则开始放缓。同时，很容易就能添加另一 
家公司的数据，这不会让图形面目不清。 

缺点是，虽然也能够对年度利润进行比较, 
但不如条形图清晰。 




2007 

年度 


下面是首席执行官有可能用到的两张图。你的任务是辨析这两张图，对每张图的相对优缺 
点发表看法。你将选择哪张图？ 


利润 （ 美元） 




2004 2005 2006 2007 


这张条形图按年度对利润进行了很好的比 
较；若想比 较同一 年度的利润，这张图也 
非常棒。例如，我们可以看出，在2007 
年以前，竞争对手的利润较高，但到了 
2007年，芒芒公司的利润超过了对手。 

这张图的缺点是，如果首席执行官突然 
决定在图中添加第三家竞争对手的数据, 
读图难度可能会增加，人们难以 一眼看 
明白这张图。 
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第一印象 


- 折我戽缈缈著 

折线图能很好地体现数据趋势。你将每一批数据画成点，然后将这些点连起来。 

就可以方便地在同一张图上显示多批数据，却不会显得过于拥挤——只要确保能 
清楚地看出每一条线就行了。 



像其他图形一样，在纵轴上显示频数还是百分数由你选择——使用哪种标度完全 
取决于你想凸显的主要事实。 


折线图常用于显示随时间变化的数值。时间总是用横轴表示，频数用纵轴表示。 
通过在横轴上选择时间值，可以读出任何时间段内的频数，还能读出该时间点的 
相应频数。 


利润 （ 美元） 



折线图应只用于展现数值型数据，不应用于 
类别数据。原因是，对类别数据进行比较是 
有意义的，但为其绘制趋势线却没有意义。 
只有在基于某些数值型单位 （ 比如时间）对 
类别进行比较时才使用折线图，这时，每一 
类别都用一条独立的线表示。 
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要点及世上没有傻问题 


要点- 

■ 累积频数 即到某个特定数值为止的总频数，即频数 
的累计总和。 

■ 通过累积频数图，可基于累积频数找出每组数据的 
上限。 

■ 需要体现趋势时请使用折线图，例如基于时间的 
趋势。 

■ 可用折线图显示多批数据。每批数据各用一条线表 


示，请确保能清楚识 别每一 条线。 

■ 由于通过折线图很容易看出趋势形状，因此可用折 
线图进行基本的预测。只要延长趋势线即可进行预 
测，但要尽量保持基本形状。 

■ 不要使用折线图显示类别数据——除 非要显 示每一 

个类别的趋势，例如基于时间的趋势。如果要显示 
每一个 类别的趋势，要为每一个类别画一条线。 


世上 M 傻问题 


1»): 折线图和时间序列图 是一回 

事吗？我想我以前听到过这个名字。 

^: 时间序列图确实是一种折线 

图。时间序列图以时间区间为关注 
点，我们用过的一些实例就是这样 
的。但折线图不一定要关注时间。 

1»):折线图有什么特别的变体吗？ 

^ : 有。事实上，你已经遇到过 
一种。累积频数图就是一种折线图， 
所显示的是到某个特定值为止的总 
频数。 


(») : 折线图既能显示类別数据， 
又能显示数值型数据吗？ 

^: 折线图显示类别数据的情况 
只有 一种： 只显示每一类别的趋势， 
且每条线代表一个类别。 

折线图不应该用于这种 情况： 基于 
类别绘制线条。 

f 5 ) :这么说在显示总体趋势时， 
折线图效果更好；在对数值或类别进 
行比较时，条形图效果更好？ 

^: 正确。使用哪种图形归根结 
底在于你要传递的信息，以及你要 
提炼的主要事实。 


1»): 既然我已经知道如何正确创 
建图形，我能用绘图软件完成这项 
繁重的工作吗？ 

^ : 完全可以！绘图软件能为你 
节省大量时间，减少繁重工作，而且 
结果非常出色。 

但要 记住： 软件无法代替你思考。你 
仍然需要决定哪种图能最好地体现你 
的主要事实，还必须检查软件所生成 
的结果是否正是你盼望得到的。 
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第一印象 



在你的帮助下，芒芒公司有了杀手锏，主题报告极为成功，这都是你的功劳。 
芒芒游戏名声大噪，赞助、广告纷至沓来。你唯一要做的就是想一想拿着大 
把的奖金干点什么，玩点什么。 


统计学让你受益、对事情知根知底。你已经初尝甜头，接着读下去吧，我们 
将让你看到统计学能完成更多工作，你将真正开始让统计学发光发热。 


这些®其是崧禅淤！投赍 
人在我们的办公室门口排 
起了长 ( K . 去度个长假吧 
我 精害! 



2 集中趦势的量度 


，中 I 之道 # 



有时候，把握问题核心才是当务之急。 

从一大堆数字中看出模式和趋势可 能颇为不易， 而 求出平均数往往是把 握全局 
的第一步。有了平均数就能迅速找出数据中最具代表性的数值，得出重要结论。 
在本章中，我们将介绍几种方法，帮助你计算最重要的统计量——均值、中位 
数、众数。你将开始学习如何有效 地汇总数据， 尽可能得出简练、有用的结果。 


进入新的篇章 




统计邦健身俱乐部使用平均数 


欢迕采到健身偁乐部 


统计邦健身俱乐部深感自豪，因为他们有一项本事—— 
能为每一位客户提供完美无缺的健身课程。无论你要学 
游泳、练武术，还是要打造型体，他们总有合适的课程 
等着你。 

健身俱乐部的员工注意到，当客户与同龄人在同一个班 
上练习时，表现最为开心，而开心客户更常做回头客。 
看来，健身俱乐部要取得成功，秘诀在于算出每个班的 
典型年龄，其中一个办法就是计算平 均数。 平均数是每 
个班级的代表年龄，利用这个年龄，健身俱乐部可以帮 
助客户选择合适的班级。 


身倶乐部 

j v 统计麵级养生馆 


下面是力量集训班现有 学员: 


20岁 



20岁 27岁 
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我们如何计萁力量集训班的乎均年龄? 



中庸之道 


均值： 乎玲数的一般1度 

可能以前有人让你算过平均数。计算大量数据的平均数的一个方 法是： 将所有 
数字加起来，然后除以数字个数。 

在统计学中，这样算出来的值叫做 均值。 




原因 S 平均数不止一种。 

你必须知道如何分别称呼每一种平均数，才能方便地告诉别人你所 
说的是哪一种平均数。就像去杂货店买面包，你不也得告诉售货员 
要买哪一种面包吗？——白面包、全麦面包或其他面包。考虑到这一 
点，最好明确指定所用的是哪一种平均数计算方法，例如，当你撰 
写社会学研究报告时，就应该这样做。 

同理，如果有人告诉你某个数据集的平均数，当知道该平均数的种 
类后，你将能更好地理解数据的真实情况。这能给你重要线索，让 
你得知所传递的是何种信息一或者，在某种情况下，会让你得知 
所隐匿的是何种信息。 


我们先讲均值，随后在本章后面部分介绍其他类型的平均数。 
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统计表示法 



孪母乌数孪 


均值数学 

如果你想真正成为统计高手，就需要把一些常用统计符 
号用顺手。一开始可能会感觉有点儿生疏，但很快就会习 
惯的。 


几乎每一种统计算法都涉及一批批数字的加法计算。例如，如 
果我们想求出力量集训班的年龄均值，首先就要把班上全体学 
员的年龄加起来。 


统计师的问题是如何用通用方法表示这种算法。我们不一定事先 
知道有多少数字要处理，也不一定知道都有哪些数字。例如，我 
们目前知道力量集训班有多少人，知道他们的年龄，可要是有其 
他人加人，结果会怎么样？只有用通用方法表示以上算法，才有 
办法在班级情况发生变动时，不用重新推导，就能写出算法。 


统计师是这样解决以上问 题的： 用字母表示数字。例如，他们 
可能会用字母 X 表示力量集训班中的学员年龄，如下 所示： 


班级学员特 g 年龄 
19 20 20 20 21 


每个 x 表示班级中的一个人的年龄，有点儿像用特定数字 x 对 
每个人做标记一样。 




他今卑 


:“二⑵二 



班级学员通 g 年龄 

^ x, x 2 X, x 4 X 5 

V 

每个*象 矛热级 
寺鹼/个人. 

既然我们已经有了表示年龄的通用方法，就能 
用 X 进行各种计算。可以以下列方式表示班级 
中的 5 个人年龄的 总和： 

Sum = x, + x 2 + x 3 + x 4 + x 5 


可要是我们不知道有多少数字需要求和该 
怎幺办？例如，要是我们不知道班级中有 
多少人该怎么办？ 
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中庸之道 


处理未知彔件 


统计师用字母表示未知数字。可如果我们不知道有多少数字需要求和该怎 
么办？没问题——我们只要把这些数字的数目叫做/ I 就可以了。例如，如果 
我们不知道力量集训班中有多少人，我们就说有 n 个人，然后将年龄和 写为： 

s r 

Sum = x 1 + x 2 + x 3 + x 4 + x 5 + ... + x n 


.. •"炎 此矣推欢 
简写. “.. i 此表推”表 
1 矛捩淹系昶地砩加 *• 


在本例中， x „ 表示班上第 n 个人的年龄。如果班上有18个人，则这个数是 X 18 , 
即第18个人的年龄。 




我们可以用另一种简捷表示法。 

X , + X 2 + X 3 + X 4 + ... + X n S 种写法有点儿像在说“年龄1加年龄 
2,再加年龄3,然后加年龄4,依次类推，直到加到年龄 n 。 ” 
在日常交流中，我们不太可能这么说，而更可能说“把所有 
年龄加起来”，这样更直接、更简单、切中要点。 


与此相似，在数学中，我们可以用 S 符号表示这个意思 ， S 
为希腊字母，读作“西格玛”。我们可以用 Sx (读 作：西 
格玛 X ) 简捷地表示“将所有的 x 加起来”。 

O 



x n + x 2 + x 3 + x 4 + x 5 + ... + x n = 


lx 


看到了吧，多直接、多简单啊！这就是“把所有数值加起 
来”的数学表示方法，不用明确说岀每个数值。 

讲过这些方便简单的数学表示法之后，让我们看看怎么用 
这种数学表示法计算均值。 


第2章 集中趋势的屋度 49 




均值公式 


爯说玲值 

我们可以用数学符号表示均值。 

为了求出一批数字的均值，我们会将这些数字加起来，然后除以 
这些数字的个数。我们已经讲过如何记总和，还讲过统计师如何 
用 n 来表示一批数字的总和。 

把以上记法合并起来，均值就可以 记为： 

__杷所磺娩數 

' 官加妃象… 

~ k ： — 迖后除 麩 
官个軚. 

也就是说，这就是“将所有的数字加起来，然后除以数字个 
数”的简捷数学表示法。 


均值的专用符吾 

均值是应用最广泛的统计量之一。由于使用如此频繁，统计师们 
专门给了它一个符号：^。这是一个希腊字母（读作“缪”）。 
记住，这只是表示均值的一种简捷方法。 



识值是应用最广泛的 
统计量之一， m 用符 
号 |1 表兩。 
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中庸之道 



案件：含含糊糊的平均数 

本地一家公司的员工由于感到自己拿到的薪水不公道，出 
现了不满情绪。大部分员工周薪为500美元，少数经理高一 
些，而首席执行官每周搞回家49,000美元。 


5穸钟 
推琺 



这公司的平均薪水是每周2,500美元，而我们只有500。” 
工人们说，“这不公平，我们要加薪。” 

一位经理耳闻了这个情况，也和他们一起要求加 
薪。“这公司的平均薪水是每周1万美元，而我只有 
4,000。我要加薪。” 


首席执行官看着他们， 说道： “你们都错了，平均薪水就 
是500美元一周，我没亏待谁，快回去干活吧。” 


平均薪水是怎么回事？你认为谁是对的？ 
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均值与频数 

r % 


^解著 


试着算一下力量集训班的年龄均值？下面是学员们的年龄。 


年龄 

19 

20 

21 

频数 

1 

3 

1 


态7求出4,我们需要把所唷人鲶卑龄加起来，被后除人數 .即: 
79 + 20 + 20 + 20 + Z 1 


5 


100 

5 

= 20 

卑龄均值态 20. 


记值，4 3 个人泊 
>龄裊 20 岁. 


处理频数 


在计算一批数据的均值时，你常常会发现有些数字是重复的。只要看 
看力量集训班的年龄就知道，实际上有3个人的年龄是20岁。 


有一点确实很 重要： 在计算均值的时候，要把每个数的频数考虑进去。 
为了确保自己不忽略这一点，我们可以把它写人公式。 


如果用 f 代表频数，就可以重新将均值表示 如下: 


M 


Zfx ^ 


每个數官乘其麵數, 
趑后将全鄯乘私相加. 


If -, 


频軚和 


这是表示均值的另一种方法，但这次明确指出了频数。用这个方法计算 
力量集训班的数据， 得出： 


^ = 


lx 19 + 3 X 20+1 X 21 
5 


= 20 


计算方法相同，但写法略有区别。 
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中庸之道 


爯说健身偁乐鄯 

又一位顾客满怀希望地前来寻找完美无缺的健身班。你 
能帮他找一个吗？ 



我想找一个周二晚上姝班，要安# 饴 
人.要铋遇刭间龄人.你铖帮我安#安 
排吗？ 




听起来这很容易找到。根据宣传手册，健身俱乐部周 
二有三个班有空缺。第一个班的年龄均值是17,第二 
个班的年龄均值是25,第三个班的年龄均值是38。这 
位克莱夫先生需要找到一个学员平均年龄贴近他本人 
年龄的班级。 
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当好的均值变坏 


人人郗在练功夫 


克莱夫去了年龄均值为38岁的班。他盼望这是一个程度一般 
的班级，他可以在这里进行一些不太剧烈的练习，遇到一些 



我结束7功失袂淤#习.铧蟣 
上嘀禾少小伙儿和几值诅4+ 
再推婊姥话绝禾会苒束这里. 


克莱夫曾经盼着加人的班级原来主要由十几岁 
学员组成。你觉得为什么会出现这种情况呢？ 
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中庸之道 





绘制功夫班和力量集训班的直方图（若要复习直方图，请参 考第一 章）。直方图的分布形状 
比较下来结果如何？克菜夫为什么会被分到错误的班级？ 

力量集训班学员年龄 


年龄（岁） 

19 

20 

21 

频数 

1 

3 

1 

功夫班学员年龄 


年龄（岁） 

19 

20 

21 

145 

147 

频数 

3 

6 

3 

1 

1 
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练习解答 


绘制功夫班和力量集训班的直方图（若要复习直方图，请参 考第一 章）。直方图的分布形状 
比较下来结果如何？克莱夫为什么会被分到错误的班级？ 

力量集训班学员年龄 


年龄（岁） 

19 

20 

21 

频数 

1 

3 

1 

功夫班学员年龄 


年龄（岁） 

19 

20 

21 

145 

147 

频数 

3 

6 

3 

1 

1 


力量集 训班学员年舲 



y 



频 2 - 


r^n 
1 1 


数 1- 


< 


0 

-A ~ - ——!——1 

1 ^ 

: — 1 

I 

j 

1- r 


态了常省空间. Q 18 19 20 21 22 23 年龄（岁） 

硌去0 — M 岁信悤； 


频 

数 



4 


2 - 
0 


功夫班学员年舲 



■> 



0 19 20 21 22 145 146 147 148 年龄（岁） 




你认为均值会 是一批 数据中的最大值吗？在什么情况 
下会是这样？ 
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我们的数据中存在异常值 


看出力量集训班和功夫班的图形形状有何差别了吗？力量集训 
班的年龄形成了光滑、对称的形状，很容易看出班上学员的典 
型年龄。 

功夫班的图形形状则不这么直截了当。大部分年龄都在20岁左 
右，但有两位祖师爷的年龄远远超过20岁。像这样的极值被称 
为异常值。 


功夫班学员年舲 


频 

数 



作忌银值. 


19 20 21 22 145 146 147 148 年龄（岁） 

U -38 


珀值洽 38 ,但痳上没痏/个 
人鹼年舲在 38 上〒 • 这个年 
鈐真鲶说代表痳级务龄 a 马？ 





如果这个班上不包括几位祖师爷，均值会是多少？将 
该均值与实际均值进行比较。你会因此得知异常值有 
何影响？ 
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认识异常值 


异常值 

观察功夫班的数据和图形，很容易看出班上学员的年龄在20岁 
左右。事实上，如果班上没有那几位祖师爷，20岁就是均值。 


但我们不能简单地忽略那几位祖 师爷： 他们仍然是班上的一分 
子。遗憾的是，这几位明显高于“典型”年龄成员的存在扭曲了 
均值，使均值抬高了。 

功夹班学员年舲 



重要银计 t 

异常值 


与其他数掂掊掊禾入妫极 


高或狨低鲶數值 


频 

数 


办系改省辨几伖徂 4 爷. 
妫值会也现在这附选. 


「 

> 




办系犄钾几伖徂砟爷 
娩年龄包含在由.珀 
值会向右偏移 • 


19 20 


4 


21 22 145 146 147 148 


=38 



黨要濟计 t 

偏斜数猫 

> 当异常值将數据向左或向 

:w 右“拉”时即 产咗偏 斜数掂 


你能看出异常值如何拉高均值吗？这就是异常值对数据的影响。 
一旦发生这种情况，我们就说数据偏斜了。 


功夫班的数据向右偏斜，原因是，如果按照升序排列所有数据, 
异常值位于右边。 


让我们仔细看看。 


你认为均值会 是一批 数据中的最大值吗？在什么情况下会是 
这样？ 

是鲶.会嘀这种惰况.也票一批數据中姥所省數掂都相同，则均值会是最大值. 


动笔 
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向右偽斜 

向右偏斜的数据有一条“尾巴”，这条尾巴 
由偏大异常值形成，向右逐渐变弱。拿一张右 
偏斜图形看看，就能看到这样的尾巴。功夫 
班中的偏大异常值扭曲了均值，将均值拉高 
了——即拉向了右边。 




向左偽斜 


这张图上的数据向左偏斜。看到左侧的异常值尾巴了吗？ 
这次的异常值位于低端，把均值向左拉。在这种情况下, 
均值小于大部分值。 


对称数掩 

在理想情况下，你会希望数据呈对称形态。如果数 
据对称，则均值位于中央。不会有任何异常值将 
均值拉向任何一侧，中央位置两侧的数据形状大致 
相同。 
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均值对话 


饮水机边的对活 



克 莱夫： 他们告诉我这个班的平均年龄是38岁，所以我觉得 
自己能跟上。我坚持了5分钟就不得不坐下，要不我的腿就不 
听使唤了。 

本迪 姑娘： 但我没看到这个班上有任何人是这个年龄，所以 
他们的算法肯定有差错。他们为什么会那样跟你说呢？ 

克 莱夫： 我觉得不是他们的算法 有错： 他们只是没把我真正 
需要知道的情况告诉我。我问他们班上的典型年龄是多少， 
而他们给我的是年龄均值，38。 

本迪 姑娘： 那并不是真正的典型值，对吗？我是说，仅看班 
上那些人的话，我会认为较年轻的年龄更具代表性。 

克 莱夫： 要是他们把几位祖师爷从算法中剔除掉，我就会知 
道不该去这个班。原因就在这儿，我确信无疑。他们把整个 
算法都扭曲了。 

本迪 姑娘： 好吧，如果几位祖师爷引起了这么大的问题，他 
们为什么不忽略这几位祖师爷呢？也许这样能得出更有代表 
性的班级年龄…… 
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导找中伎数 

当偏斜数据和异常值使均值产生误导时，我们就需要用其他方式 
表示典型值。我们可以取中间值，这种做法切实可靠。中间值是 
另一种平均数，我们称其为中位数。 

为了求出功夫班的中 位数： 比如某个功夫班按升序排列所有年龄, 
取出中间值，如下 所示： 


19 19 20 20 20 21 21 100 102 



这屋 _中阂的数官. 
即中位數 . 20. 


如果把功夫班上的所有年龄按升序排列起来，数值 20 正好在当 
中。 因此，功夫班的中位数为 20。 

要是班上学员数目为偶数该怎么办呢？ 

19 20 20 20 21 21 100 120 

f 

fe 系蠘上# M 數目易偶數. 

则中同數并舴仗唷一个. 


中位数永远处于 
中间，它是'中 
间值。 


如果一批数字的数目是偶数，则只要取两个中间数的均值即可 
(将两个中间数加起来，再除以 2) ,结果就是中位数。在上例中， 
中位数是20.5。 



动动膊 


我们已经看到，如果有9个数，则中位数是处于第5个位置的数；如果有8个数，则中 
位数是处于第 4.5 个位置（第4位和第5位中间）的数。要是有 n 个数呢？ 
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分步计算中位数 


求中位数三 步法： 

1. 按顺序棑列 数字： 从最小值棑列到最犬值。 

I . 如柒布舒数个数值，則中忮数为忮子中间的数值。如 
果有 H 个数，則中间数的忮 I 为 （ w + l )/2。 

多.如柒布偶数个数值，则将两个中间数相加，然 后除认 
U 中间位簠的篝 法是： （《 + 1)/2。 两个中间数分别 
位子达个中间忮 I 的两侧。 


世上 M 傻问题 


P 5 ) :如果确实想用均值，哪怕存在偏斜数据，还能用吗？ 

^ : 可以用，而且大家经常这么做。不过，这时均 
值无法最恰当地体现典型值。你需要使用中位数。 

1»): 这是你的看法，但均值的主要意义的确是给出典 
型值，均值是个平均数。 

^: 均值带来的巨大危险 是：它 会给出一个不存在于 

数据集中区的数值。以功夫班 为例： 如果你要加入这个 
班，并随机•挑出一个人，很可能这个人是在20岁左右，因 
为班上大多数人的年龄都在20岁左右——只看均值无法形 
成这种印象，求出中位数会让你对数据有更准确的预期。 

但即使是中位数，有时也会得出不存在于数据集中区的 
值，上一页的例子就是这样。这正是出现多种平均数的 
原因，有时候，为了正确地指出典型值，需要使用各种 
各样的方法。 


|»)：这么说中位数比均值更好？ 

^ : 有时候中位数比均值更合适，但这并不是说它 
更好。大多数时候，你会需要使用均值，因为均值的优 
势通常远胜中位数，均值对于抽样数据来说更穗定。本 
书后文会继续阐述这一点。 

I ®): 对于类別数据该怎么使用均值或中间值呢？对于 
一些 实例，像第1章第9页中的数据，该怎么办？ 

^ : 你只能求数值型数据的均值和中位数。不过别担心， 
还有一种平均数可以处理这种问题，我们随后会展开讲。 

f 5 ) :我总是搞不清右偏斜数据和左偏斜数据。怎样才 
能记住哪是右偏斜，哪是左偏斜？ 

^ : 偏斜数据有一条“异常值”尾巴。若要知道数据 
的偏斜方向，可看看尾巴的指向。例如，右偏斜数据的 
尾巴指向右方。 
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化身为数梅 



谙假装成数梅來玩达个游戏，说一说毎 
个数椐集的中位数是哪一个> 数掩是否 
偽斜、均值是大子还是小子中位数。 

清说出理由。 


数值 

1 

2 

3 

4 

5 

6 

7 

8 

频数 

4 

6 

4 

4 

3 

2 

1 

1 


数值 

1 

4 

6 

8 

9 

10 

11 

12 

频数 

1 

1 

2 

3 

4 

4 

5 

5 
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化身为数据解答 


化身为数椐 



清假装成数梅来玩达个游戏，说一说每 
个数椐集的中位数是啷一个、数梅是否 
偽斜、均值是大子还是小子中位数。 

清说出理由。 


数值 

1 

2 

3 

4 

5 

6 

7 

8 

频数 

4 

6 

4 

4 

3 

2 

1 

1 


这里唷 2 S 个數，也票 把这瘙 數排列起束，中伖麩正崧在中间，即在第 
13个軚娩 伖量, 中值數忌3;數据向右偏斜：均值禎拉高， 函此， 幼值 
太子中值數. 


数值 

1 

4 

6 

8 

9 

10 

11 

12 

频数 

1 

1 

2 

3 

4 

4 

5 

5 


这里的中位麩态70:麩据向左偏斜：均值破拉向左边. ® 此.均值小 
子中位麩. 


办票麩掂向古偏斜.则妫值 
值子中佐数右惻（较大）. 


也票麩据向左偏斜.则均值 
值子中值數左惻（轂小> . 
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生惫19益兴隆 

你对平均数的研究的确得到了回报，越来越多的人前来健身俱乐部 
挑选健身班，员工们发现，为客户们挑选合适的班级变得容易多了。 

这位十几岁的小青年正在找游泳班，他想在班上交一些年龄相仿 
的新朋友。 /—^ 



让我们看看故事的发展 
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当好的中间值变坏 


小鸦 喻喻 游泳班 

小鸭呱呱游泳班每周在游泳池里碰头两次。在这里，家长们教 
他们的小宝宝学游泳，大家玩水嬉戏，乐不可支。 

看看谁来上课了…… 
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捋 荡的频 数磁贴 

下面是参加小鸭呱呱游泳班的成员的年龄，但有一些写有频数的磁贴 
掉下来了。你的任务是将这些频数放回频数表中的正确位置。参加这 
个班的有9个孩子及其父母，均值和中位数都是17。 


年龄 

1 

2 

3 

31 

32 

33 

频数 

3 


2 

2 






-%^动笔 


弄清楚小鸭呱呱游泳班的频数后，画出直方图。你注意到什么了？ 
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练习解答 



捭落的频数磁贴 

下面是参加小鸭呱呱游泳班的成员的年龄，但有 一些写 有频数的磁贴 
掉下来了。你的任务是将这些频数放回频数表中的正确位置。参加这 
个班的有9个孩子及其父母，均值和中位数都是17 ^ 



y 城愎糸17. 也票我们用 a 和 b 象示来知麵麩，则： 

1x3 + 2 x 4 + 3 x 2 + 3 Jx 2 + 32 a 

两边都乘 18 

"^3 + 8 + 6 + 62 + 32 d + 33 b = »7 x 18 = 306 
32 a + 33 b = 306 - (3 + 8 + 6 + 62) = 306 - 79 
3 ZU + 33 b = 227 

由子 32 a + 33 b 是奇麩，所，， ib 省定是 3 . 


已知唷 9 个孩函此孩吝 
鲶频數加起来贵定是 9 .贵 
定唷4个 2 岁鴣孩孑. 
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均值和中忮数出了什么问题？ 

让我们更细心地看看情况。 

下面是参加小鸭呱呱游泳班的成员的年龄。 

1 1 1 2 2 2 2 3 3 |31 31 32 32 32 32 33 33 33 

數官个数基偶數， （ S 此中值數 
居子3和37省中.取这兩个數的 
均值： (3+37)/2, 得刭 77. 

虽然班上没有一个人是17岁，但这个班级的年龄均值和中位数都 
是17! 

可如果班上人数是偶数会怎么样呢？均值和中位数仍然具有误导 
性。 请看： 

111222223 ®31 31 32 32 32 32 33 33 33 

办票癍上再嶒加一个 2 岁妫人.则中 
值數忌 3 .那么成卑人炙怎么斛韓呢？ 

如果班上再增加一个2岁的孩子，如上所示，中位数仍然是3。这 
反映出孩子的年龄，但没有将成年人考虑在内。 

111222223 (|^31 31 32 32 32 32 33 33 33 

也票我们在蚺级中再增加一个 
w 岁的成卑人，中伖飫就会重忌 
31 . 这一攻，我们忽略了孩孑！ 

如果再在班级中增加一个33岁的人，则中位数变为31。但这无法 
反映班上所有孩子的情况。看来，无论我们选择哪一个值作为平 
均年龄，总会出现误导。 

我们该怎么处理达样的数椐艰？ 
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动动笔 



1. 为什么你认为均值和中位数都不适用于这些数据？为什么均值和中位数具有误导性？ 


2.如果必须挑选 一个年 龄来代表这个班级的年龄，这个年龄是多少？为什么？ 


3. 要是能挑选 两个年 龄呢？你会挑选哪两个年龄？为什么？ 
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玲值访谈 

本周话题： 

平均数的各种形式 


Head First: 你好，平均数，很高兴邀请你来参加 
节目…… 

均值： 拜托，叫我均值。 

Head First: 均值？可我想你是平均数。我们搞错来 
宾名单 了吗？ 

均值： 完全没有。要知道，统计邦中的平均数不止 
一种，我是其中一种，叫作均值。 

Head First： 平均数不止一种？听起来有点儿复杂。 

均值： 其实不复杂，用习惯就好了。你看，我们都 
表示一批数字的典型值，但对于这个典型值是多 
少，我们各有各的看法。 

Head First： 那么你们当中谁是真正的平均数呢？ 
我说的是把所有数字加起来，然后除以数字个数所 
得到的那个？ 

均值： 是我。不过请别叫我“真正”的平均数，其 
他兄弟可能会恼火。真实情况是，大多数刚来统计 
邦的人都把我当作“平均数先生”，我的计算方法 
和学生们在基本算术中首次接触平均数时用的计算 
方法相同。只有在统计邦，我才叫做均值，以便和 
其他类型的平均数区分开来。 

Head First: 那么你有其他名字吗？ 

均值： 说起来我确实有一个符号： A 。所有的摇滚 
明星都有別名，呃，一部分明星有别名，好歹我也 
有。这是个希腊名字，这让我颇具异国情调。 


Head First： 那么为什么还需要别的平均数呢？ 

均值： 我讨厌承认这 一点： 我有缺点。当我处理存 
在异常值的数据时，就会变得没头没脑。没有异常 
值的时候，我表现很好，但只要看到异常值，我就 
会失魂落魄地跟着这些异常值走。这会带来不少问 
题。有时候我会远远偏离大部分数值所在的位置。 
这时就该请中位数出面了。 

Head First: 中位数？ 

均值： 碰到异常值的时候，他真是太冷静了。无论 
你砸给他什么数据，他总是能端端正正地站在中 
间。当然了，中位数有他不好的 一面： 他无法计 
算。你只能指出他应该出现在哪个位置。随着计算 
深人，他的作用会有所逊色。 

Head First： 你们二位有数值相等的时候吗？ 

均值： 如果数值是对称的，我们就会数值相同，否 
则我们往往不相同。一般规律是，如果存在异常 
值，那么我往往朝着异常值移动，而中位数则停在 
原来的地方不动。 

Head First: 时间快到了，最后再问一个问 题：会 
不会有这样的情况，用你和用中位数表示典型值都 
会出现问题？ 

均值： 恐怕有这种情况 D 有时候我们需要稍微借助 
另一种类型的平均数。他露面不是太多，但认识认 
识他很有用。别急，我将让你看看他都忙些什么。 

Head First： 好极了！ 
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动动笔解答 




现在请认认真真地考虑如何以最佳方式表示小鸭呱呱游泳班的 
代表年龄。下面是数据 提示： 


年龄 

1 

2 

3 

31 

32 

33 

频数 

3 

4 

2 

2 

4 

3 


i . 为什么你认为均值和中位数都不适用于这些数据？为什么均值和中位数具有误导性？ 


对子上数据，均值和中值数都具唷诀导性，函忌兩者都没唷金面表示出班级中 
蜣成员鲶典型年龄.均值说明唷一 些十几 岁淤責少卑参加了潴泳蟣，实际上一个 
也没唷，中值數也唷间掸始间题，俚也票唷别蜣人加入班级，中伖數会太幅度 

2 .如果必须挑选一个年龄来代表这个班级的年龄，这个年龄是多少？为什么？ 

淤确禾太可铋挑出一个完全代表蟣级年龄鲶卑龄.这个班级窠际上是由兩批卑 
龄租 成淤： 一批是孩务始年龄，一批是家长鲶卑龄.确窠无这闲一个数官间时 
代泉兩批卑龄. 


3. 要是能挑选两个年龄呢？你会挑选哪两个年龄？为什么？ 


由子这瘙數据看上去包括兩批數据，桃逸兩个卑龄束代表換级卑龄是唷惫义 
蜣.一个卑龄代表孩吝们鲶卑龄，一个年龄代泉家长们鯰卑龄.我们会选掸 
2和 32. 函易 这雨个年龄组的成员最多. 
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除了均值和中位数，还有第三种平均数，称为众数：众数是一 
批数字中最常见的数值，即频数最大的数值。与均值和中位数 
不同，众数必须是数据集中的一个数值，而且是最频繁出现的 
数值。 


有时候，数据的众数可以不止一个。如果有一个以上的数值具 
有最大频数，则每一个这样的数值都是众数。如果数据看上去 
体现了多种趋势或多批数据，那么我们就为每一批数据给出一 
个众数。如果一批数据有两个众数，则我们说这种数据是双峰 
数据。 


这正是我们在小鸭呱呱游泳班碰到的情况。我们的确观察到丫 
两批数据，一批是家长的，一批是孩子的，因此不存在某一个 
能完全代表整个班级的年龄。相反，我们可以看出每一批年龄 
的众数。在小鸭呱呱游泳班上，年龄2和年龄32出现的频率最 
高，因此这两个年龄都是众数。从图上看，众数就是具有最高 
频数的年龄。 

众数甚至能用子类别数椐 

众数不仅能用于数值型数据，还能用于类别数据。事实上， 


年龄 

1 

2 

3 

31 

32 

33 

频数 

3 

4 

2 

2 

4 

3 




这兩个麩最常出现. 

( S 此二者都是众麩. 

小鸭喻峨班的学员年龄 


频4 
数3 

2 


小 


这炎众数_它们 真碲最 窩频麩 * 

i A 




2 3 4 


31 32 33 34 


这是 采嶂叙掂 .因诌 
这些數据省兩个众嶔. 


众数是唯-能用于类别数据的平均数。在处理类别数据时， 
众数是最常出现的平均数类型。 

你还可以用众数指定具有最高频数的数值组。具有最高频数 
的组被称为众数组。 

众数甚至能用子类别数掸 

■ 开课数 

功夫 
小鸭呱呱 

I -1-1-1- 卜 - I I -1- 1— 

0 2 4 6 8 10 12 14 16 18 



倶乐部 

J Vj 充计獅级养生馆 

游泳班 

中位数 年龄心 

众数 年舲： 2和32 


频数 
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分步计算众数 


求众数三 步法： 

1. 拕数椐中的不罔类别或数值全鄯技出采。 

I . 写出毎个数值或类别的频数。 

挑出異布最高频数的一个或几个数值，得出众数。 




求出以下几批数据的众数。 



你认为众数在什么情况下最有用？ 


众数在什么情况下最无用？ 
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恭軎 


我淤高尔夫得 
舍均值基低子标准杆數 
2 杆.禾 过可别 告诉女士们， 

我绝得今中值麩是高子标准杆 
V 々数 2 杆. 广 


广 富唷轻验淤^ 
； 网妹教炼.像我. 
拿刭鲶中值數葙水是 
、 33 美无/小时. 


无论是足球还是 
说计# . 我都踢它 

没商 I . . 


每尺在水下蜣中值麩 





动动笔解答 



动动笔 
^解箸 


求出以下几批数据的众数。 


数值 

1 

2 

3 

4 

5 

6 

7 

8 

频数 

4 

6 

4 

4 

3 

2 

1 

1 


这里蜍众麩是2, (§ 基2具嘀最 

高麵數. 


类别 

rm. 

红 

绿 

粉 

黄 

频数 

4 

5 

8 

1 

3 


这里鲶众麩态“燏’ 


数值 

1 

2 

3 

4 

5 

频数 

2 

3 

3 

3 

3 


这一批數据唷崧几个 众數： 


你认为众数在什么情况下最有用？ 

省众数蜣數目綏少时，或者.当數据态矣别數掂.而禾是 
數值型麩据时.均值和中值數都禾试用子矣别麩掂. 

众数在什么情况下最无用？ 

当众數很多时. 



黨要绑计 t 

众数 


众数必须存在子數掂 . 
众數是唯一铋闲子矣 i ? 系据 
鲶早幼數. 
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练习解答 





填写下表，针对我们在本章遇到过的平均数，写出算法，然后指出在哪种情况下会使用哪种 
平均数。请尽最大努力填写，不要回头翻阅本章的内容。 


平均数 

计算方法 

何时使用 

均值 ( M ) 

>4下值一其注均可 

y . x , —汉态每一个 

奴值. 

或 卜 - 〆 ” 忌數值數目. 

1?是每个 X ： 

If 

在麩据祁 t 对称.且权產示出一种趋 

势时使用. 

中位数 

将所嘀數掂按跬計存 顺寿迸 行排列.也 

票省奇數个數值，则中伖麩爸中同蜣麩 
\1： 也票唷偶数个數值，则中值數态雨 
个中同鲶数值相加再除 " i 2 得到蜣结票. 

在&据由子异常值而皮4偏斜时使用. 

众数 

选出具唷最大麵數鲶一个或几个麩值. 

也票麩掂可兮糸兩组.则忌每组找出一 

个众麩. 

在遇刭矣别數据时使用. 

省麩掂可. .i 今糸雨个或更 多姐时 使用. 

) 

众數是喰一铋用子矣别/ 
數据鲶年均數矣型. 
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-动笔 


星巴仕咖啡连锁店慷慨大方的首席执行官想给全体员工加薪。他不太确 
定，是直接给每个人加2,000美元呢，还是按10%的比例加。薪水均值 
为50,000美元，中位数为20,000,众数为10,000。 


a ) 如果星巴仕每位职员都加薪2,000美元，均值、中位数和众数都会发生哪些变化？ 


b ) 如果星巴仕每位职员都加薪10%,均值、中位数和众数都会发生哪些变化？ 


c ) 如果你的薪水为均值，你希望采用哪种加薪方式？如果你的薪水等于众数呢？ 
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集中趋势的璗度 

' 斛箸 


星巴仕咖啡连锁店慷慨大方的首席执行官想给全体员工加薪。他不太确 
定，是直接给每个人加2,000美元呢，还是按10%的比例加。薪水均值 
为50,000美元，中位数为20,000,众数为10,000。 
a ) 如果星巴仕每位职员都加薪2,000美元，均值、中位数和众数都会发生哪些变化？ 


均值：办票<代表原束的葙水，1 ^代 表员工麩目 


廣表蝣场渲 



SU + 2000) 

~ ' 蒹水洽 2 . 000 

2入 2 2000 谂碑 nA •农 • 


= 50,000 +. f ° 0 ^. 


每个人鲶葙水都增 
长 2 .000美无会令均 


= ^52,000 值、 中值數和众數 

都增长 2 .000美元. 


均值： 每一传着水都增加000美元， 
中同值（即中佐数）也4也此.浙的中 
值麩4: 

$ 20,000 + $ 2,000 = $ 22 , 000 . 

A 數： 最常见鲶蕲水（或老叫做众数） 
凑 7 0,000美元.去增加2,000美元后， 
众數 文洽： 

$ 10,000 + $2000 = $ 12 , 000 . 


b ) 如果星巴仕每位职员都加薪10%,均值、中位数和众数都会发生哪些变化？ 


这一次，所唷蜣葙水都乘 .，iU ( gpjoo ^ + 10 f 0 ) 




每个人加蕲则 
均值.中值數和众 
數也增加彳0%. 


S (^- U ) 

IA / 

ll.l K 


1.1 X 50,000 

455,000 


中佐 數： 每一侍葙水都乘中同数 
(即中值數）也是 也此. 4 f ( 的中伖 麩诠： 
$20 ,000 X 1 1 = $22,000. 


众最耆见的篇水（或 老叫做 众数） 
JOOOO 美无，众數乘.•“ J 后，重态， 

$ J 0,000 X 1.1 = $11 , 000 . 


& 


C ) 如果你的薪水为均值，你希望采用哪种加薪方式？如果你的薪水等于众数呢？ 

也票你拿蜣莱水是均值，则加蕲70茨蜣加莱幅度更太：也票你拿 
淤弟水是众數.则直接加游 2 , 000美元淤加蕲裼度更太. 


80 深入浅出统计学 




中庸之道 


破案：含含糊糊的平均数 

平均薪水是怎么回事？你认为谁是对的? 


工人、经理和首席执行官各自用了不同的平均数。 
工人们用了中位数，这使得首席执行官的薪水造 
成的影响达到最低程度。 

经理们用了均值。首席执行官的高薪令数据向 
右偏斜，均值因此显得虚高。 

首席执行官用了众数。大部分工人的薪水为每 
周500美元，所以500美元就是薪水的众数。 


5穸钟 



球雾 


那么，谁对谁错？从某种意义上说，他们都是对的，但我们不 
得不说，每一个人群都在使用最有利于自己意愿的平均数。记 
住，统计量能够提供信息，但也能造成误导。权衡再三，我们 
认为最适合用于本案例的平均数是中位数，因为数据中存在异 
常值。 
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3 分殽性乌变异性的 1 度 


强大的“距” 



世事可靠不可靠，我们该问谁？ 

平均数在寻找数据集典型值方面十分了得， 但平均数并不能说明 一切。 
平均数能让你知道数据中心所在，但若要给数据下结论，仅有均值、中 
位数和众数往往无法提供充足信息。在本章中，我们将开始分析 各种距 
和差， 让你的数据分析技术进入新境界。 
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认识统计邦全明星篮球队 


招聘： P 人员一名 

统计邦全明星篮球队是当地炙手可热的篮球队，是今年联赛 
的夺冠热门。只是，由于一场离奇的意外事故，他们有一位 
队员倒下了。他们需要一名新队员，越快越好。 

新队员必须是全才，但教练真正需要的是一位靠得住的投 
篮手。只要球员取得他的信任，使他相信球员有能力投篮得 
分，他就会成为篮球队的一员。 

教练整整一星期都在试用球员，他发现有三位球员可以考 



三值球员蜣投蓝早均得今相^ 
间，佴我需要通 it 其种办紘 
对他们进行稀选.你觉得你铋 
帮上忙吗？ ^ 


位殚负在试用滟阂蝻 
半祕兮构同.教格谈 
也何決复选抟嘟一伖？ 


统计邦令明靈 
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我们 tgfce ： 餃球8得分 

下面是三位球员的 得分： 




此处始频數告诉我们妹员疚得每种 
得舍的比赛场麩.这值球员唷2场 
比赛得 9 合，省 7 场比赛得 U 今. 


每场比赛的得分 

■ 

9 

10 

11 

13 

频数 

1 

2 

4 

2 

■ 


每场比赛的得分 

■ 

■ 

m 



12 

13 

频数 

■ 

■ 

■ 

■ 

_ 

1 

1 




每场比赛的得分 

3 

6 

7 

10 

TP 

13 

30 

频数 

2 

1 

2 

3 

1 

1 

1 


每位球员的得分均值、中位数和众数都是10分，但只要你注意一下所有得分就 
会发现，这几位球员是以不同的方式获得这些成绩的。球员们在稳定发挥方面 
存在差异，平均数无法量度这一差异。 

我们需要通过某种方法对三人的得分进行分析，以便为球队挑选出最合适的人 
选。除了平均数，我们还需要用其他方法对数据进行比较——用哪一种方法呢？ 





除了平均数以外，还有哪种信息会帮助教练作出 
决定？ 
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全距量度数据宽度 


使阁金距叵分数椐集 

前面讲过数据集平均数的计算方法，但平均数往往只给出部分信息。平 
均数让我们有办法确定一批数据的中心，却无法知道数据的变动情况。 
在前面的例子中，虽然每一位球员的平均得分相同，但显然各个数据集 
之间存在差异，我们需要通过某种方法量度这些差异 3 

我们可以观察球员得分相对于平均数的分散情况，以此区分各个数据集。 
每位球员的得分分布情况各不相同，只要能够量度这些得分的分布情况， 
教练就能够做出更有依据的决策= 

1裒全距 

通过计算全距（也叫极差），我们可以轻易获知数据分散情况。全 
距指出数据的扩展范围，有点儿像测量数据的宽度。全距的计算方法 
是： 用数据集中的最大数减去数据集中的最小数。 


篮球球员得分 


频 

数 


通減察_ … 
象軚据娩寺心. 





珀值对子我们7斛麩据的兮 
散精況黾无帮助.函此需要 
另想办注了解鉍掂兮散精况. 


—> 
得分 


最小值称为下界，最大值称 为上界 


让我们看看其中一个球员的得分，再看看如何运用全距。下面是 得分: 





7 8 9 9 10 10 11 





12 13 



为了计算全距，我们用上界减下界。从数据中看出，最小值为7,因此 
这是 下界； 同样可以看出上界，即最大值13。用上界减下界， 得到： 



重要鏃计 t 

全距 


全距=上界-下界 
= 13-7 
= 6 


全 g 巨也叫极差，是用子 
量度数掂集今散裎度的 
一种方鉍.其其 紘爸： 


所以该数据集的全距为6。 

全距是量度数据分散程度的既简单又方便的方法，于是，我们有了 
另一种对数据集进行比较的方法。 


上界-下界 

其中上界爸最太值, 
下界基最小值. 
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分散性与变异性的靈度 






算出下列数据的均值、下界、上界、全距，画出图形。数值的分布方式相同吗？全距能否帮 
助我们描述这些差异？ 


u = 70 
下界 = S 
上界 = U 
金 g 巨 = 12-8 
= 4 



y 




• jf' 


f 


I.TH-.-I-I - J 

J 

/ > - 1 - 1 - 

h— 1 

— 

~t~l 

- 1- 


7.5 8.5 9.5 10.5 11.5 12.5 

8 9 10 11 12 

1 0 8 0 1 





4=70 

下界= 8 
上界= 72 
金 g 巨 = 12-8 

= 4 


看數掂备系'相同. 
这安竹其偖岽却/嵙. 



7.5 8.5 9.5 10.5 11.5 12.5 



_/彳上雨个数据集鲶金詎相间，俚 
數值今沛情况却唷差别.我在想，金 
雎是杏 确实包含唷共數据今散情况淤金鄯 

^信4? 


全距仅仅描述了数据的宽度，并没有描述数据在上、下界 
之间的分布形态。 

以上两个数据集都具有相同的全距，但第二个数据集有异常 
值（即极大值和极小值）。看来，全距能量度数值的展开宽 
度，但很难得出数据的真实分布形态。 
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强大的“距” 


异常值带采的问題 


全距是描述数据集分散程度的简便方法，但通常并非描述数据 
在该全距内的分布形态的最好方法。如果你的数据中包含异常 
值，那么，使用全距描述数据的分散情况会极具误导性，原因 
是全距很容易受异常值影响。让我们看看具体情况。 


假想我们有以下一批 数据： 


下界， 


上界5 


2222333334444555 


这里的数字非常均匀地分布在上界和下界之间，并且无需担心 
任何异常值。这一批数据的全距为4。 

可要是增加一个异常值，例如10,会发生什么变化呢？ 


厂下 界迷炎 1. 

V 


但上界增长到 70. 



1 1 1 2222333334444555 10 


下界保持不变，但上界增加至10,于是新全距为9。仅仅因为额 
外增加了一个数-个异常值，全距就增长了5。 

没有这个异常值的时候，以上两批数据是相等的，那么，我们对 
数值分布形态的描述为什么会出现这样大的差别呢？ 


这是 闲垂钱 i ) (备彬 iD 始一 
种.佴用钱备代替长方彤） 
表示始數据.每备伖代表麩 
据集中鲶一个數的频數. 





动动膊 


你能不能想个办法，我们按照这个办法构建一个距，使 
这个距受异常值影响不大？ 
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这么说用全袒禾是个 
格办试? 


全距是表述数值分布情況的一种极其简单方便的办法，但颇有一些局 
限性。 

全距指出数据最大值和最小值之间的差距，但仅此而已——全距只是对 
数据分布情况极其基本的描述。 

全距的主要问 题是： 仅仅描述了数据的宽度。由于全距是通过数据极值 
计算得出的，因此不可能指出数据的真实形态以及数据是否包含异常值。 
构成相等全距的途径很多——有时候这一点附加信息十分重要。 



主要原因是全距非常简单。 

全距如此简单，大家都能理解——即使很少接触统计 
学的人也不例外。例如，当你谈起年龄全距时，大家 
很容易就能理解你的意思。 

不过，请小心，在全距极其简单的表象下却潜伏着危 
机。由于全距无法反映最大值和最小值之间的详细情 
形，使用时很容易让人对基础数据产生误会。 



强大的“距” 


我们霜要摆脱舁常值 

从全距的定义可以看出，全距的主要问题是包含异常值。只要数据中有异 
常值，即使只有一两个，全距中就会包含这些异常值。我们需要通过某种 
方法消除这些异常值的影响，这样才能最好地描述数据的分布形态。 

有一个办法可以解决这个问题，即使用所谓的迷你距忽略异常值。我们不 
再量度整个数据集的全距，而是找出这个全距的一个部分——不包含异常 
值的部分。 







我们需要用一个统一的方法摆脱异常值。 

如果随心所欲地忽略异常值，会产生这样一个 问题： 很难对几 
个数据集进行比较——谁知道是不是所有数据集都以完完全全 
相同的方式忽略了异常值？ 

我们需要确保这 一点： 对要进行比较的几个数据集统统使用 
相同的迷你距定义。如何办到呢？ 
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四分位数与四分位距 


砂分位数出手相救 


构建迷你距的一个办 法是： 仅使用数据中心周边的数值。为此，首先按升 
序排列数据，然后将这些数据分成四个相等的数据块，每一个数据块包含 
四分之一原有数据。 


[2 2 3 3 3 


I 1 1 1 2 2 ! 




这炎箚面见剎边鹼 
间一枇&掂，但规* 
在铖兮專兮 • 



我们可以用介于两条外分割线之间的数值构建一个距。 


• _ Q1 _ Q2^ _ Q3 I_ 

I、1 1 2 2 ^ Q j"^2 3 3 3 3 3 4 4 4 5 5 5 Ip" 


取这兩个值之阐媳间詎.我们就 
得刭一个金漸鲶“速你 距”. 

如上，起到将整批数据一分为四作用的几个数值就是所谓的四分位数。 
求四分位数的方法有点儿类似求中位数，不同之处在于，需要求出将 
整批数据一分为四的几个数值，而不是求出将整批数据一分为二的一 
个数值。 

最小的四分位数 （ Q 1) 称为下四分位数或第一四分位数，最大的四分 
位数 （ Q 3 ) 称为上四分位数或第三四分位数。中间的四分位数 （ Q 2 ) 
就是中位数，因为它将数据一分为二。每两个四分位数之间的距被称 
为四分位距 （IQR ) 。 

四分位距=上四分位数-下四分位数 

四分位距为我们提供了一种用于量度数据分散 
程度的标准的、可重复使用的方法，这是另一 
种能对数据进行比较的方法。但异常值会怎么 
样呢？四分位距也能帮助我们处理异常值吗？ 

让我们看一看。 



有一些教材在提到 
四分位数时，指的 
是每一份四分之一 
数据块中的所有数。 

我们不是这样。我们用术语四分 
位数特指将整批数据一分为四的 
几个数值。 


重要綈计 t 



砂分位数 

四今值数是这祥一些數值：它们将數据一 
今态 四。最小的四今值數称态下四今佐 
數，最大鲶四今值数称忌上四今值數。 

中同鲶四今值數即中位數。 
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强大的 “距” 


四分忮距剔除舁常值 

四分位距的优 点是： 与全距相比，较少受到异常值的影响。 

上四分位数和下四分位数所在的位置造成了这样的 结果： 下四分位 
数以下还有25%的数据，上四分位数以上还有25%的数据。也就是说, 
四分位距仅使用了中间50%的数据，如此将异常值弃而不用。前面已 
经讲过，异常值就是数据中的极大值或极小值，因此，当我们仅考 
虑数据中心周边的数值时，就自然而然地将异常值排除在外了。 

下面再看看我们的数据。能看出四分位距如何有效地忽略异常值吗？ 


四兮依钽包括屮同段鹼数据 



由于四分位距仅用了处于中心部位的50%的数据，因此，无论异常 
值是极大值还是极小值，均被排除在外。异常值不可能处于中心部 



$黨要瘓计 t 

矽分位距 


即一个禾易受异常值彩响鲶“速你 
雖”。可通过下列方这进行•汁 莫： 


通过四分位距将异常值排除在外的意义是：得到一种对几 
个数据集进行比较且比较结果不会被异常值扭曲的办法。 
为了能算出四分位距，我们必须先算出四分位数。请翻到 
下一页，我们将说明如何进行计算。 


上四今伖数一下四今值數 
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细说四分位数 



刳析四分位数 

求一个数据集的四分位数的过程与求中位数的过程非常相似。如果将所有数值按 
照升序排列，中位数就是正好位于中央的数值。如果有 n 个数，则中位数是位于 
( n + l ) + 2 位置的数值，如果这个位置处于两个数字之间，则要取这两个数的平均值。 

如果进一步将这些数据分为四份，四分位数就是处于每个分割位置的数值。最小 
值为下四分位数，最大值为上四分位数。 



下界 下四分位数 中位数 上四分位数 上界 


求四分位数的位置比求中位数的位置稍微棘手一点儿，因为我们需要确保所选择 
的数值能按正确的比例划分整批数据。不过还是有办 法的： 让我们从下四分位数 
算起。 


求分位数的位 1 


o 

首先计算 n + 4。 


❻ 

如果结果为整数，则下四分位数位于 “n + 4” 这个位置和下一个位 

置的中间，取这两个位置上的数值的平均值，即得下四分位数。. 

❺ 

如果 “n + 4” 不是整数，则向上取整， 

位置。 

所得结果即为下四分位数的 


例如，如果你有 6 个数，首先计算 6 + 4, 得到 1.5, 向上取整得到 2, 这表示下 
四分位数的位置为2。 

求上®分忮数的忮簠 

O 首先计算 3 n + 4。 

O 如果结果为整数，则上四分位数位于 “3 n + 4” 这个位置和下一个位 

置的中间，将这两个位置上的数加起来，然后除以2。 

O 如果 “3 n + 4” 不是整数，则向上取整，所得到的新数字即为上四分 
位数的位置。 


94 深入浅出统计学 



强大的 “i 



2. 下四分位数是多少？上四分位数是多少？ 


3. 四分位距是多少？ 
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练习解答 







下面是某位球员的 得分: 


每场比赛得分 
频数 


3 6 7 10 11 13_30_ 

2 12 3 11 1 


1. 这个数据集的全距是多少？ 

这个數掂集鲶下界是 3 .凼忌 3 是最低得今麩.上界是 SO , ®& 3 0 是最高得今麩.子是: 
金雎=上界-下界 


2. 下四分位数是多少？上四分位数是多少？ 

让我们先计其下四今值數.泉中嗜 n 个麩宫. J ) -=- 4 = 2.75. 将此结票向上取整可得虫 
下四今值數淤值置， （ S 此下四今值數緣值罝态 3 ,这意咮省下四舍位數忌 6 . 

现在让我们求出上四舍值麩. 3 x JJ 4 = 8.25, 将比结系向上取整，得钊 9 ,即上四今 
值數鲶佐置基 9. 这*竦着上四今值數忌 H . 


T «5 今值麩 


3 3 Q} 7 7 ^Oj 10 10 0^ 13 30 

… T T K 


中位數 


上四兮伖數 


3. 四分位距是多少？ 

四今值雖鲁子上四今值數減下四今值數. 
四今值距=上四今值數-下四今值數 


这个铉系也輯小 ☆ 
雜 1 展料. 
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强大的“距” 


世上 M 儍问题 


1»): 我明白均值、中位数、众数都很有用，可我 

为什么需要知道数据的分布情况呢？ 

^: 平均数仅能指出数据的一个方面，可以据此 

得知数据的中心，仅此而已，尽管很有用，但往往不 
够。 除了平均数，还要用其他方法概括数据。 

(») :这么说，中位数与四分位距是一样的喽？ 

^ : 不对。中位数是数据的中间值，而四分位距 
则是50%中间数值形成的一个范围。 

|»):四分位数方法有何重要意义？这似乎是 一种十 
分繁琐的计算范围的方法。 

^: 使用全距量度数据分布情况会存在一个 问题： 
全距非常容易受异常值影响。全距能让你知道数据上 
界与下界之间的差值，但只要掺入一个异常值，结果 
就会天差地别。 

解决问题的办 法是： 只关注居于数据中央的50%的数 
据，这样做能够排除异常值的干扰。这意味着要算出 
四分位数，并用到四分位距。因此，尽管求四分位数 
比求上、下界繁琐，却仍有无可置疑的优点。 


问：我总是应该用四分碰巨量度数据的分布情况吗？ 

^ : 在大部分情况下，四分位距都比全距更有意 
义，但归根结底取决于你真正需要的信息。还有其 
他一些方法可以量度数据的分布情况，你可能也想 
考虑这些方法，我们随后将会介绍这些方法。 

: 我会不会只想看看某个四分位数，而不想看 

全距或四分位距？ 

^ : 有可能。例如，你可能会有兴趣知道较大值 
的情况，因此你会只想看看数据集的上四分之一数 
据，这时你将上四分位数作为分割点。 

Ip ) :我会不会想将数据分割为比四分之一数据块更 
小的数据块？假如把数据分割为 10 份，而不是 4 份，结 
果如何？ 

^: 会，有时候你会想这么做。请翻开下一页， 

我们将具体介绍…… 


义要 


点 


■ 数据的上、下界即数据集中的最大值和最 
小值。 


■ 全距是量度数据分散程度的简单方法。计 
算方法为： 

全距=上界-下界 


■ 全距很容易受异常值影响。 


四分位数即将数据分割为四等分的几个数 
值。最大的四分位数称为上四分位数，最 
小的四分位数称为下四分位数。中间的四 
分位数即中位数。 

四分位距即 50% 中间数值形成的一个间 
距。计算方 法为： 


_相比全距，四分位距较不易受异常值影响。 


上四分位数-下四分位数 
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将数据分割为百分位数 


我们#不爲 P 艮子 使用四 分忮数 

前面讲过如何通过全距和四分位距量度一批数据的数值分散情况, 
全距是最大值和最小值之间的差值，而四分位距则关注数据中间部 
位的 50% 数值。 



O 


除了全距和四分位距，还有别的距可供我们使用。 

我们在最初使用全距时碰到的问 题是： 全距极易受异常值影响。为了 
解决这个问题，我们将数据一分为四，然后用四分位距形成一个经过 
剪裁的数据距。 



那么我就仗铋用这凼距了 
吗？我唷别淤选#吗？ 



尽管四分位距十分常用，但它并不是构建迷你距的唯一方法。我们 
可以不把数据分成四份，而是分为其他的份数，以此形成我们需要 
的距。 


例如，假如我们将数据分成十份，而不是四份，使得每一个数据块 
包含10%的数据。于是我们就会得到如下 结果： 





22 | 23 | 33|33 


这是 间一批 軚掂.佴现在 
广 今成 7 桐專淤十伧.每个 
/ 軚掂块包含彳％淤麩据. 


I 5 10 | 


我们可•用这痊今界形成一个崭 斯鲶速 你雎. 


如果你将一批数据按百分比进行分割，则起分割作用的数值被称为百 
分位数。在上例中，我们的数据被分成10份，因此起分割作用的数值 
被称为十分位数。 
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我们可以用百分位数构建一个新的距，称为百分位距:, 


强大的“距” 


什么是百分忮数? 


四分位数是将数据一分为四的数值，同理，百分位数是将数据一分为百的数值。每个百分位数 
按照它所分割出来的数据的百分比进行命名，因此，第十百分位数就是位于数据范围10%处的数 


值。通常，第 k 百分位数就是位于数据范围 k % 处的数值，常用 p k 表示。 



P k 就是佐子数掂范 ( Stef 。 处淤数值. 


四分位数其实也是一种百分位数。下四分位数即 P 25 ，上四分位数即 P 7S 。 
中位数即 P M 。 


统 i 十学测验得分 


百分位数用途 

尽管百分位距不太常用，但百分位数本身却对于划分名次、排行很 
有用。你可以通过百分位数确定某个数值相对于其他数值的高低。 
例如，假定你听说自己在统计学测验中得了50分，仅看这个数字本 
身，你无法知道自己和別人相比是好还是坏。可如果有人告诉你这 
次测验的第90百分位数是50分，那么你就知道，你的分数高于或等 
于其他90%的人的分数。 

求石分位数 

求百分位数的方法与求四分位数的方法相似。 


也#你得了 50 兮，且知道 



50 

得分 


o 首先将所有数值按升序排序。 

O 为了求出 n 个数字的第 k 百分位数的位置，先计算 

O 如果结果为整数，则百分位数处于第 k (^) 位和下一位数 

之间。取这两个位置上的数字的平均值，得出百分位数。 

0 如果不是整数，则将其向上取整，结果即百分位数 
的位置。 

例如，如果你有125个数，要求十分位数，则先计算10 x 125+100, 
结果为12.5。将此结果向上取整，得13,即十分位数为处于第13位 




黨要痴计薰 

苍分忮数 

第 fe 卞舍值數即值子数 
据范® 吝处鲶数值， 

记疮: 


的数值。 
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箱线图 


阁箱线®绘制咅种“距 


我们已经滔滔不绝地讲过各种距，如果能用直观的方法比较不同 
数据集的距，将会大有裨益。有一种图形专门用来显示各种各样 
的距，这就是箱 线图， 或者简称箱 形图。 

箱线图显示数据的全距、四分位距以及中位数。在同一张箱线图上 
可以比较几批数据，也就是说，箱线图是对不同数据集进行比较的 
极好方法。 

为了创建一幅箱线图，你首先要按照标度画出一个“箱”，箱的左 
右两边分别代表下四分位数和上四分 位数； 然后，在箱中画一条 
线，标示出中 位数； 通过这个箱你能看出四分位距的宽度。随后， 
在箱的两边画出“线”，显示出全距的上界、下界以及宽度。以下 



是95页提到的球员得分的箱线图。 


饉球球 8得分 


球 
员 

下界 

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 



如果你的数据中有异常值，则全距会更宽。在箱线图上，一 
条条线的长度会随着上、下界的增长而增长。通过观察箱 
线图上的线，就能了解数据的偏斜程度。 

如果箱线图是对称的，表示基础数据很可能也相当对称。 
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强大的“距” 



世上 M 儍问题 

R : 我确信我曾见过和这里的箱线图外观有所差别的 1»): 那么，如果把均值表示成点，它会出现在中位数 
箱线图。 的左边还是右边？ 

^:箱线图确实有很多种形式。有一些形式刻意把^ :如果数据向右偏斜，则均值将位于中位数的右 
线画短，并明确地用点或星号表示异常值，这样就很容边，右边的线将比左边的线更长；如果数据向左偏斜， 
易看出有多少异常值，以及异常值到底有多极端。另一则均值将位于中位数的左边，左边的线将比右边的线 
些形式则把均值表示为点，这样你就能看出均值相对于 
中位数的位置。在学习统计课程的时候，查清楚有可能 ° 

用到的箱线图形式是个不错的主意。 
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练习解答 





要点 


I ■ 百分位数将数 据一分 为百。对于划分档次 
非常有用。 

■ 第 k 百分位数就是位于数据范围 k % 处的数 
值，用 P k 表示。 

■ 百分位距与四分位距相似，但百分位距是 
介于两个百分位数之间的距离。 


箱线图 （ 或称箱形图）能在同一张图上体 
现多个距和四分位数，是在这方面十分有 
用的一 种方法。“箱”显示出四分位数和 
四分彳 S 3 巨的位置，°线”则显示出上、下 
界。箱线图能在同 一张图 上体现多批数 
据，因此非常有利于比较。 
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强大的“距” 



看束四今值雄很唷用.禾过，要是碰上时 
禾时得今赵炫蜣 球员怎 么办？假也其一值球 
员在比赛那天乱来，我们的联赛就 完了丨 不營 
是全距迷是四今值雄，我都禾敢确信它铋帮 
我选出真正最稳定淤妹员. 


教练不仅需要比较球员得分的全距，他还需要以某种更为 
精确的方法量度大部分数值的位置所在，借此判定哪一位 
球员真正值得信赖，值得在比赛日委以重任。也就是说, 
他需要找到得分起伏最小的球员。 

全距与四分位距的问 题是： 它们仅告诉你最大值和最小值 
之间的差值，却无法告诉你球员们得到这些最高分或最低 
分的频率，以及球员们得到更接近数据中心的得分的频 
率一而这却对教练很重要。 

教练需要一支值得信赖的球员队伍，他最不想要的就是表 
现时好时坏，水平反复无常的队员。 

为了帮助教练作出决定，我们能做点什么呢？ 


我们淡如何 E 鞲碥地1度变异性? 
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探讨变异性 


変异性 ft 分骹性更爯体 

我们希望量度每批得分的分散性，不止如此，还希望找到某种 
方法，利用所得到的分散性看出球员的稳定程度，也可以这样 
说： 我们希望能够量度球员得分的“变异性”。 

实现以上目的的一个方 法是： 观察每个数值与均值的距离。 
如果我们能够算出各个数值与均值的某种平均距离，就有办法 
量度变异性和分散性。结果越小，数值与均值的距离越近。下 



面让我们看一看。 


球员 < 的篮球赛得分 



这张图上的各个数值与均值相距甚远。如果教练把 
这位球员选进球队，他就不太可能预测出球员在比 
赛日的 表现。 如果这位球员在比赛日那天很顺，他 
或许能得极高 的分； 若那天很衰，他或许根本无法 
得高分，也就是说，球队很可能因他而败北。 


频 

数 




球员2的餛球赛得分 


这是另一位球员的得分数值，与均值的距离近得 
多，变化也更少。如果教练把这位球员选进球队， 
他会非常清楚该球员在每场比赛中可能的表现。 
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强大的“距” 


i 十箕乎均距离 


假想你有三个数字：1、2、9,均值为4。如果我们求 
出这几个数值与均值的平均距离，结果如何？ 


距离 


平均距离 


(1 至 p ) + (2 至 |JL ) + (9 至 |JL ) 


3 


3 + 2 + (-5) 
3 



’距离= 3 

1 


距离= 一5 

T 



这喳距离相互抵消 ■ 


各个数值与均值的平均距离总是为0—正负距离相互 
抵消。那么，我们现在该怎么办？ 


1»): 等式中为什么会出现 - 5?我 
会以为距离是5。距离怎么是负数呢？ 

: 由于小于9,因此9至 |x 

的距离为负数；1和2都小于因 
此距离均为正数。这正是各个距离 
相互抵消的原因。 

|»): 我们不能只取正距离计算平 
均距离吗？ 

^ : 这似乎很直观，但在实际 
应用中，统计师很少这样做。还有 
另一种方法能确保各个距离不相互 
抵消，我们很快就会讲到。这种方 
法能确定典型值与均值的距离远近， 
在统计学中广泛使用，在本书后文 
中的大部分章节都会出现。 


世上没布傻问题 - 

(») : 肯定不是所有数值的距离都会 
相互抵消，我们可能只是不走运而已。 

^: 无论你选择哪些数值，这 

些数值与其均值的各个距离总是相 
互抵消。下面考 考你： 取一批数， 
算出均值，算出每个数值与均值的 
距离，然后将这些距离相加。结果 
次次都是0。 

1»): 不能用四分位距判断得分是 

否稳定吗？ 

^ : 四分位距仅仅用了一部分 
数据来量度分散性。如果一位球员 
有一场比赛得分不佳，这场得分将 
会被剔除掉。为了实事求是地确定 
可靠性和稳定性，我们需要考虑所 
有得分。 


|»): 全距用上了全部得分。为什 
么不能用全距呢？ 

^: 全距仅仅在描述最大值和 
最小值之间的差值时才确实表现不 
错。如前所述，全距并不能体现数 
值的实际分布形态。我们需要用另 
一种方法进行量度。 


§个数值与识值的距 
离正、员賴抵。 
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甩方差和标准差量度差异性 


我们玎认阁方 Si 十算变异性…… 

我们要想出一个办法量度各个数值与均值的平均距离，这个办 
法要能防止距离与距离之间相互抵消。 



我们需要想个办这 把所嘀 淤數宫 
都重忌正數.也许先迅出各个距离 
淤早方數铖行.这祥一束.毐个麩 
宫就都重态正麩了. 


让我们试着用原来的三个数字算一下。 


平均（距离） 


(1 至 (X ) 2 + (2 至 ) 2 + (9 至 |x 

3 


厂 


记>值: 


3 2 + 2 2 + (-5) 2 
3 

9 + 4 + 25 
3 


这一攻炎三个 


正軚梱加. 


= 12.67 (保留两位小数) 


这一次，各个距离没有相互抵消，我们得到了一个有意义的 
数。由于我们使用了各个数值与均值的距离的平方数，所有 
的加数都为非负数，把这些数字加起来，结果为非负数—— 



重要 绑计鵞 

方差 


次次如此。 


这种量度数据分散情况的方法称为方差，是一种非常常用的 
描述数据分散性的方法。下面是以上等式的通用 形式： 


方差= 



方差是数值与均 
值鲶距离鲶半方 
數始半幼值. 


n 


方差是量度数据今散性蜣一 
种方注，是數值与均值淤维 
离始早方数淤早功值. 

2 (x - / 

n ~ 
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强大的“距” 



标准差枝术要淡 

我们已经看出，标准差是描述典型值与均值距离的一种方法，标准 
差越小，数值离均值越近。标准差可能得到的最小数值为0。 

像均值一样，标准差也有自己的专用符号(7,即希腊字符 
的小写（大写“西格玛”在第二章出现过：芝，表示求和） 

为了求出 CT ， 先计算方差，然后取其平方根。 

a = 0 

a 
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标准差访谈 



标准差访谈 

本周话睡： 

屋度标准差 


Head First : 嗨，标准差，见到你太好了。 

标 准差： 很高兴见到你， Head First 。 

Head First ： 首先，我想你能不能多给我们谈谈你自 
己和你的工作。 

标准差：我无非就是量度数据的分散性。均值很擅长 
让别人知道数据中心的情况，但这往往不够。有时候 
均值需要有人帮忙给出更完整的情况，我就是为此而 
来。均值体现了平均数，而我体现了数值的变异度。 

Head First : 恕我冒昧，我干嘛要管数据变异？这很 
重要吗？我肯定，只要知道一批数据的平均数就够 
了。 

标准差：我来举个例子吧。话说你从本地餐厅定了 
一份快餐，当东西送到时，你发现食物一半烧焦， 
一半全生，这时你感受如何？ 

Head First ： 我可能会觉得不开心，觉得饿，还打算 
告那家餐厅。怎么了？ 

标准差：可是，从均值看来，你的食物是以最合适 
的温度烹饪的——均值显然没有体现事情的全部真 
相。你真正需要知道的是变异，我就是为此而来。 

我会根据均值体现的典型值，指出你该期望各个数 
值相对于这个典型值如何变化。 

Head First ： 我想我明白了。均值给出了平均数，而 
你给岀了分散程度。可你是怎么办到 的呢？ 

标 准差： 这很简单。我不过是指出数据与均值的 


距离——平均而言。假定有一批数据的标准差为 
3cm, 你可以当作这是 在说： 平均而言，这些数值 
与均值的距离是 3 cm 。 其实标准差不止包含这些信 
息，不过，只要顺着这样的思路去思考，你就找对 
方向了。 

Head First : 说到你的数字，标准差，你是大一点好 
还是小一点好？ 

标准差 ：哦， 这完全取决于你要用我做什么。如果 
你正在生产机器零件，你会希望我小—点，这样才 
能确保所有的零件都 一致； 如果你正在研究一家大 
公司的工资，那么我自然会比较大。 

Head First : 我明白了。告诉我，你和方差有什么关 
系吗？ 

标准差：问得真好笑。方差就是另一个我一把我 
平方一下，我就变成 方差； 取方差的平方根，我就 
又回来了。我们两个就像是克拉克和超人，只是少 
件披风而已。 

Head First ： 再问一个问题，你有没有在均值身边自 
惭形秽的时候？毕竟他受到的关注比你多多了。 

标 准差： 当然没有。我们是铁哥儿们，我们相互扶 
持。再说，要是自惭形秽的话，会让我显得很负 
面 我可从来不会是负的。 

Head First ： 标准差，感谢你的参与。 

标 准差： 我很乐意。 
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现在该你来显示一下标准差的实力了。请计算下列数字的均值和标准差。 


1 2 3 4 5 6 7 


1 2 3 4 5 6 
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练习解答 


Mm 


现在该你来显示一下标准差的实力了。请计算下列数字的均值和标准差。 

1 2 3 4 <i 7 ()- 4 ) z + ( 2 - 4) 2 + ( 3 - 4) 2 + ( 4 - 4) 2 + ( 5 - 4) 2 + ( 6 - 4) 2 + ( 7 - 4) 2 

方差=- 

让我们先其功值 7 

1 + 2 + 3 + 4 + 5 + 6 + 7 32 + 22 + 72 + ° 2 + (- 0 2 + (- 2) 2 + HV 


9 + 4 + 彳 + 0 + 7 + 4+9 


4 a =^ 4 ~ = 2 


2 3 4 5 6 

2 + 3 + 4 + 5 H -6 


( 1 - 3 . 5) 2 + ( 2 - 3 . 5) 2 + ( 3 - 3 . 5) 2 + ( 4 - 3 . 5) 2 + ( 5 - 3 . 5) 2 + ( 6 - 3 . 5) 2 


2 . 5 2 + f . 5 2 + 0 . 5 2 + (- 0 . 5) 2 + (- 7 . 5) 2 + (- 2 . 5) 2 


6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25 


2.92 ( 保留兩值小數 ) 


CT = V 2.92 

= 1.71 ( 保留兩值小數 ) 
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这瘙其这真 复杂. 唷没嘀容易\ 

点鲶办注？ ) 

、 -^_ ， 〆 

标准差的计算可能很快就会变得错综复杂。 

为了求出标准差，必须先算岀方差，即求出每一 
个 X 的 ( x - p ) 2 。 不过，还有一个更简单但作用相同 
的方差计算公式，请看下一页的内容。不过，在 
此之前，请你先将推导算式从奇妙池里捞岀来。 


强大的“距” 





这里藏着一个较简单的计算方差的方法，它的 
真面目如何？你的任务是将一些方程式 
9碎片从奇妙池里捞出来，将它们放入推 
导过程中的空白位置。每个碎片只能用 
f 一次，但不需要把所有碎片都用上 。目 


标： 得出最后的方程式。 


噓.这里省提示 • 
记值 ： I 2 % 


I(x - \x) 2 _ I(x -m) (x - n) 



看看你铖禾 
试从这儿 ■： 




I(x 2 . + ^ 2 ) 

n 


lx 2 2nlx 




注意：池中的每个算式 
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奇妙池解答 


眘妙港解奢 



这里藏 着一个 较简单的计算方差的方法，它的 
^真面目如何？你的 任务是 将一些 方程式 
X 碎片从奇妙池里捞出来，将它们放入推 
导过程中的空白位置。每个碎片只能用 
f 一次， 但不需要把所有碎片都用上 。目 


标： 得出最后的方程式。 
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强大的“距” 


方差速箕法 


如前所述，标准差是量度分散性的一种方法，但为了计算标准 
差而进行的方差计算会迅速变得错综复杂——难就难在要计算 
每一个 X 的 ( X - A ) 2 。 所处理的数据越多，就越容易出错，当 (X 
是一个数位众多的小数时尤其如此。下面是一个能较快算出方 
差的 方法： 


方差= ^- M 2 

以上方法的优点是不必计算 ( X - A ) 2 。 在实践中的意义是，处 
理起来不太麻烦，犯错误的几率也更小。 



篥要 绑计鵞 

方差 


下面是一个滅綏快莫出方 


差鲶 方注: 



f 5 ) :那么我该用哪种形式的方差 
计算式呢？ 

^: 说到计算，第二种形式更常 
用 ，即： 

在处理小数位数众多的均值时，这 
种算法尤其重要。 

f 5 ) :我如何用这个方差算式计算 
标准差？ 

^: 和以前一模一样，取方差的 

平方根即可得标准差。 


-世 J ： M 傻问翅 

f 5 ) :要是已知标准差呢？能求出 
方差吗？ 

^ : 可以。标准差是方差的平方 
根，也就是说，方差是标准差的平 
方。如要通过标准差求方差，只要 
算出标准差的平方数即可。 

f 5 ) :我发现标准差确实很费脑子。 
再问 一遍， 它是什么来着7 

^ : 标准差是量度分散性的一 
种方法，它描述了典型值与均值的 
距离。 

如果标准差较大，意味着数值往往距 
离均值 较远； 如果标准差较小，则数 
值往往距离均值较近。 


f 5 ) :标准差会是0吗？ 

^ : 会。当所有数值都相同时，标 
准差为0。换句话说，如果每个数值与 
均值的距离都是0,则标准差将为0。 

1»):标准差的计量单位是什么？ 

^ : 标准差的计量单位与相应数 
据的单位相同。若以“厘米”进行 
计量，当标准差为1时，即表示在典 
型情况下，数值与均值相距1厘米。 

|»): 我肯定在你的方差计算公式 

中看到过除数是 （n - 1 ) ,而不是 n , 
是不是哪里错了？ 

^ : 倒是没错，不过这种形式的 
方差仅在处理样本时使用，本书后 
文谈及抽样时将详加说明。 
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化身教练 


化身#绣 



达里布三位球员的得分，均值都 


是10。你的任务轼是化身为 


教练，萁出毎位球8的标准 


差。 舁找秭 一位球 S 是球队 


最靠得 ft 的仗俘？ 


球员1 


得分 

7 

9 

10 

11 

13 

频数 

1 

2 

4 

2 

1 















强大的 


星巴仕咖啡连锁店慷慨大方的首席执行官想给全体员工加薪。他拿不定 主意： 是直接给每个 
人加2,000美元呢，还是按10%的比例加。 


a ) 如果星巴仕每位职员都加薪2,000美元，标准差会发生什么变化？ 


b ) 如果星巴仕每位职员都加薪10%,标准差会发生什么变化？ 



第3章分散性与变异性的量度 



化身教练解答 


化身教绣 

迖里冇三位球员的得分，均值鄯 
SlOo 賴任务就是化身为 
U 练， $出毎位球8的标准 
ko 辱 ㈣ - ㈣ 员是球队 
^pjj^v 最 n 得 ft 的伏伴？ 


球员1 


得分 

7 

9 

10 

11 

频数 

1 

2 

4 

2 


7 2 + 2(9 2 ) 4 - 4(10 2 ) + 2(1 1 2 ) + 13 2 

方差=- 100 

10 

49 + 7 62 + 400 + 242 + 169 


标准差 =y/IJ = 1.48 


球员2 


得分 

7 

8 

9 

10 

11 

12 

13 

频数 

1 

1 

2 

2 

2 

1 

1 


7 2 + 8 2 + 2(9 2 ) + Z(10 2 ) + 2(1 1 2 ) + 12 2 + 13 2 

方差-- 100 

10 


49 + 64 + 7 62 + 200 + 242 4- T 44 + 169 
- -700 


10 


球员3 


标准差 —y\T— 1.73 


得分 

3 

6 

7 

10 

11 

13 

30 

频数 

2 

1 

2 

3 

1 

1 

1 


2(3*) + 6 2 + 2(7 2 ) + 3(10 2 ) + II 1 + I3 2 + 30 2 

方差=- 100 

11 

18 + 36 + 98 + 300 + 1 Z1 + 169 4 - 900 


标准差= V 49 -27 = 7.02 

球员7和球员2始标准差都很小，说明數值聚集在幼值周®.而球员 3 蜍标准差 
糸 7. 02,即在典型锖况下，得今与均值鲶距离态 7 . C ? 2 . (g 此，球员 7 是畢穗定 
淤，球员3最禾稳定. 


116 


深入浅出统计学 






强大的 



斛著 


星巴仕咖啡连锁店慷慨大方的首席执行官想给全体员工加薪。他拿不定 主意： 是直接给每个 
人加2,000美元呢，还是按10%的比例加。 


a ) 如果星巴仕每位职员都加薪2,000美元，标准差会发生什么变化？ 

标准差完全禾文.实标上，數宮都被拔高#向一惻夥劫， （2 此标准差禾重. 



=康束的标准差 


b ) 如果星巴仕每位职员都加薪10%,标准差会发生什么变化？ 

标准差放太 no 吝，即倍.數宫破拉宽: T . ( S 比标准差增太了. 

标准差= 



= 1.1 倍原来的标准差 
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标准得分 


磁上 tgfcf : 餃蒌准的惰況淡怎么办？ 

我们已经讲过如何使用标准差量度一批数据的变异情况，也已经用标准差为 
统计邦全明星篮球队挑出了得分最稳定的球员，但标准差的用途不止于此。 

假想有两位能力不同的篮球 队员： 第一位投篮命中率为70%,其标准差为 
20%;第二位投篮命中率为40%,标准差为10%。 

在某一次训练中，球员1投篮命中率是75%,球员2投篮命中率为55%。从球 
员本人的历史记录看来，哪一位球员的表现更好？ 




这简单—— 球？ ^更胳呗. 
球员7扳篮得今的比例是系 
球员 2 杻篮得今的比例才55吝 


只看百分数无法了解全部 莫相。 

75%听起来是个很高的百分数，但我们并不是在研究每一位球员的均值和 
标准差。每一位球员的得分情况都高于自己的均值，但相比球员本人的历 
史记录，哪一位发挥得更好呢？我们该如何对这两位球员进行比较？ 

这兩值妹於淤功值和标 
准差不一嵙.叙们谈办何 



这样的比较是否有可能实现？别担心，我们可以使用标准分(或者叫 Z 
分)实现这个目的。 
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强大的“距” 


使用标准分 et 餃不同数椐集中的数值 

使用标准分可以对不同数据集的数据进行比较，而这些不同数据集的均值和 
标准差各不相同一标准分是对不同环境下的相关数据进行比较的一种方法。 

例如，你可以使用标准分比较球员相对于其本人历史记录的表现，这有点儿 
像私人教练的一贯做法。 

通过整个数据集的均值和标准差可求出一个特定数值的标准分。标准分通常 
以字母 “ Z ” 表示，为了求出特定数值 X 的标准分，可用下式进行 计算： 

这炎麩值 X 斯在晌軚据 

X ■ |J 标准差. 

z= 

让我们算出每位球员的标准分，看看它能向我们透露什么信息。 

计箕 标准分 

让我们先算 Zl ， 即球员1的标准分。 

75-70 

z i = 

20 


5 

20 

= 0.25 

如上，通过用均值和标准差对得分进行标准化，球员1的得分为 
0.25。球员2的得分如何呢？ 

55-40 

z 2 = - 

10 

15 
10 
= 1.5 


算得球员2的标准分为 1.5, 而球员1的标准分为0.25。这究竟有何意义? 
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标准分释义 


标准分释义 

标准分为我们提供了一种对不同数据集的数据进行比较的办法，这些不同数据集的均 
值和标准差甚至都各不一样。通过这种方法，我们可以把这些数值视为来自同一个数 
据集或数据分布，从而进行比较。 

而这对于我们上面提到的两位篮球队员有何意义呢？ 

每一位球员的投篮命中率都有不同的均值和标准差，若要比较球员们相对于自己的历 
史记录的表现情况，这就带来了困难。我们可以看出，在一次特定训练中，一位球员 
的投篮命中率高于另一位球员，我们还注意到，这两位球员的投篮命中率都比自己的 
平均成绩更高。难点在于要比较两位球员相对于他们本人的历史记录的表现。 


标准分将每一个数据集转化为更为通用的分布形态，从而有可能进行上述比较。我们 
可以求出每位球员在训练中的标准分，进行转化，然后进行比较。 


|| = 70 





很难直接对这兩个 


僅我们可 " i 通过 
z 今迸行比敍. 


灸鹼杨准 兮. 


Z 

T ^ 1 


/ 


<T 




0.25 
: 1.5 



在将得分标准化以后，球员2的得分比球员1的得分更高。 


这意味着，尽管从总体上看球员1是一位更优秀的投篮手， 
投篮命中率比球员2更高，但相对于本人的历史记录，却 
是球员2表现更好。球员2表现更好指的是……和自己比。 
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强大的“距” 



a 


标准分可以取任意值，这些值表示相对于均值的位置。正的2分表示数值高于 
均值，负的2分表示数值低于均值。若2分为0,则数值等于均值本身。数值大 
小体现了数值与均值的距离。 


距离均值苕子个标准差 


有时候，统计师会用距离均值若干个标准差表示某个特定数值的相对位置。 
例如，统计师可能会说某个特定值在距离均值1个标准差的范围内，这其实只 
不过是表示数值距离均值远近的另一种方法——它有何实际意义呢？ 


标准分=距离识 
值的輛准差个戳 


我们已经讲过如何通过2分将数据集转化为一个均值为0、标准差为1的通用分 
布。如果一个数值在距离均值1个标准差的范围内，我们就知道，数值的标准 
分在 -1 到1之间。与此类似，如果一个数值在距离均值两个标准差的范围内， 
则数值的标准分在 -2 到2之间。 



0 
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世上没有傻问题 


世上没布傻问题 


|»): 既然方差和标准差都能量度数据的分散程度， 
那么它们与全距有何区别？ 

^: 全距是一种极其简单的量度数据分散程度的 

方法，它指出最大值和最小值之间的差值，但仅此而 
已，你无法看出数据在这个差值范围内的聚散情况。 

用方差和标准差方法量度数据的变异性和分布形态则 
效果好得多，因为这二者考虑了数据的聚散情况，它 
们关注的是典型情况下的数值与数据中心的距离。 

(») : 方差和标准差有何区别？我该用哪一个？ 

^ : 标准差是方差的平方根，这说明知道其中一 
个就可以求出另一个。 

标准差可能是最直观的方法，因为它粗略地体现了平 
均情况下的数值与均值的距离。 


| o ) :标准分是如何介入以上方法的？ 

^ : 标准分利用均值和标准差，将一个数据集中 
的各个数值转化为更通用的分布形态，同时确保数据 
的基本形状不变。 

标准分是对不同数据集中的数值进行比较的一种方 
法——即使各个数据集的均值和标准差各不相同也能 
进行比较，这是一种量度相对排名的方法。 

1»):标准分和异常值检测有什么关系吗？ 

^ : 问得好！我们可以凭主观判断确定异常值， 
但有时候可以将异常值定义为偏离均值三个标准差的 
数值。 

不过统计学家对此尚有分歧，因此请小心对待。 


要点 

■ 方差和标准差通过观察数值与均值的距离量度 
数值的分布形态。 

_方差有两种计算方法，其一： 

Z(x-M ) 2 


■ 标准差的平施方賴标纖勺平方 。 

■ 标准分 （ 或称 z 分）是对不同数据集中的数 
值进行比较的一种方法，这些数据集的均值 
和标准差互不相同。数值 x 的标准分的计算 
方 法为： 


■ 其二: 


n 


x- m 


a 
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练习解答 






填写下表。写出我们在本章见到过的各种量度分散性的方法，说明如何进行计算，请 
尽量不要回头翻阅本章前面的内容。 


统计量 

如何计算 

全距 

上界-下界 

四今值距 

上四分位数-下四分位数 

标准差 （CT ) 

兩种真这结票相间. 

标准分 



a 
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强大的“距” 


统计# 全碘星 S 球队嬴了联赛 f 

现在，整个赛季的所有比赛都结束了，统计邦全明星篮球队在 
联赛中排名第一。很显然，是你帮助教练选出了最适合球队的 
队员。 

别忘了，这可都多亏标准差这位好朋友的帮助。 
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4 概率 计 翼 


把握机会 



人生无常 

瞬息之间的变化有时难以——料定。但有些事情会比其他事情更有可能发生, 
这就为概率理论提供了大显身手的舞台。通过概率能评估出现各种结果的可 
能性，让你预测未来。知悉可能出现的结果则可帮助你作出有根据的决策。 
本章将让你了解更多概率知识，学会如何掌控未来！ 


进入新的篇章 127 



欢迎来到肥蛋赌场 


肥蛋大満贯 


肥蛋赌场是当地最热门的赌场，赌博游戏应有尽 
有-轮盘、老虎机、扑克牌、二十一■点 . 

正好你今天吉星高照 ， Head First 实验室给了你一 
大堆筹码，让你去肥蛋挥霍，贏了钱全归你。想去 
试试？那就走吧一就知道你动心了。 




轮盘赌运转正酣，下一局正要开始，让我们看 
看你运气如何。 
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把握机会 


转起 來吒， 轮盘 f 



轮盘 


就算你没有亲自玩过轮盘赌，总在电影里见过吧——庄家 
转动一个轮盘，随后朝相反方向掷出一个小球，赌者将赌 
注押在他所料定的停球位置。 

肥蛋赌场所用轮盘有38个停球位置，主球位编号 1—36, 
颜色或黑 或红； 另有两个球位编号0和00,均为绿色。 


f ■色 = 


轮盘赌的下注方式五花八门。例如，你可以赌一个特定数字 


(奇偶均可），可以赌球位颜色，开局后还会有人宣布各种 
其他赌法。再就是 记住： 如果球停在绿色球位，你就输了。 


使用轮盘板可以方便地查看数字与颜色组合。 



前12位 


中12位 


1 -18 


偶数 


o 


轮盘植（太 i 
参见 130負） . 、~~ " 

你在轮盘钹上鲶球值上 
下注 ,赌小球会侉在轮 
盘上的甚个球值上. 


后12位 


奇数 19-36 


要是妹得在0成 00 
妹伖，你就输了 f 
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轮盘板 
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益 S 冰涵潭缽敦 

併讲蚺 ■*, 豸泰讲鸪#_11>+-癍雄癍。谢1羊赛 4 H 
S 鸪眸弟 ， *雄-^来菊唞牟。矣£1泛筇&时斗«讲怖 
鄉苹 S 盡姍。 

十匕滅 X/. 







A ■ 



16 

17 

18 

19 

20 

21 

22 

y : 23 

24 

25 

26 

27 

28 

29 

30 

31 

32 

33 

34 

35 

36 

2至1 

2至1 

2至1 


I 


丑 12SF 



SB 幾 




DI112SF 


a 遝 1 VD 丨 36 


























把握机会 


Tii ? f 

轮盘板剪好了？赌局正要开始。你料想球会停在哪 
里？在你的轮盘板上选择一个号码，然后下注。 
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求出概率 


几挛冇多大? 


当你正在思念朋友，恰好有一位朋友就给你来了电话，或者你买的 
彩票中了头等奖……每当这时，你会不会这 样想： “那么，这件事 
的发生几率有多大？” 


概率是量度某事发生几率的一种数量指标。你可以用概率衡量发生 
某件事的可能性（例如你在本周某一时刻会进人梦乡的可能性）， 
或不会发生某事的可能性（例如在你徒步穿越沙漠时，草原狼企 
图用耳朵里的砧骨撞翻你的可能性）。统计学用“事件” 一词表 
示有概率可言的任何事情，换句话说，事件就是人们能指出其发 
生可能性的任何事情。 


概率的量度尺度是0_1。如果某件事不可能发生，则其概率为0; 


如果某件事肯定会发生，则其概率为1。 

的都是介于0和1之间的概率。 

下面是用概率比例尺示意的几个例子。 

大多数时候，你所面对 

灰 i 与不灰 i 
妫几率相4 

0.5 

t 



\ 

辈康根砧骨袭去之矣缺 

掷出一敘硬币，硬 

在泉达时輅一 

後事级毛可铋灰生•让 

币正面朝上紿攻數 

段时同 rt , 在甚个 

我们杷这件亨标在这儿 • 

占所唷攻數的一津. 

时刦进入梦乡的可 
铖# /L 乎确蚩 无疑. 



重要痴计 t -n 

众数 

唷概率可言淤一个结票或一 

件事. 


能翟出槪皋与轮盘醣的关系吗？ 


如果你知道小球停在某个特定编号或颜色上 
的可能性大小，就能够判断是否该下某个赌 
注。若想在轮盘赌中贏钱，懂得概率是非常 
有用的。 


132深入浅出统计学 





把握机会 
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动动笔解答 


你必须算 出一个 与轮盘有关的 概率： 小球停在数字7上的概率。 
下面我 们一步一步进 行演示^ 

1. 观察你的轮盘板。有多少个球位可供小球停留？ 



= 0.026 

^我们紿答案.保留三伖小麩. 

4. 将以上概率标在下面的比例尺上。你会怎么描述“停球结果为7” 这件事的可能性大小？ 


I 斛著 


0 


0.5 
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把握机会 


求蘚轮盘概挛 


让我们好好看看这个概率是怎么计算出来的。 

下面是转动轮盘可能得到的所有结果。我们真正感兴趣的 
是押中赌注——即，球落在数字7上。 


d ㉝ 

7 蚝尊件蜣概丰 


。丨 I ^ | 1^1 I ^ I 



后12位 


18 


偶数 

◊ 

♦ 

奇数 



依 I 个蜣依夂. 


为了求出押中赌注的概率，我们用押中赌注的可能数目除以 

可能出现的结果的数目，如下 所示： . 

“得_系给， 义、 

mm 押中醏注的可能数目 省彳种.蝽依省 . 

~所有可能结果的数目 〆 


我们还可以用一种更通用的方法表述以上情况，对于事件 A 
的 概率： 


皮 i 事件 a 鲶概率 > P ( A ) 


itr ~ 

n ( A ) 

n(S)^- 


S 被称为槪率空间，或称样本空间，是表示所有可能结果的 
一种简便表示法。可能发生的事件都是 s 的子集。 
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概率和维恩图 


维恩©:概挛的©形表示 


概率计算有时很复杂，因此，用图形方式表示概率往 
往十分有用。其中有一个办法是这 样的： 画一个方框 
代表样本空间 S ， 然后画几个圆圈代表各个相关事件， 
这种图称为维恩图。下面是我们的轮盘问题的维恩图， 
其中 A 为“停球结果为7” 这一事件。 


这是 

其中包 含‘匕 等件. 

球结果 爸，. 路.^ "緙 
的方式唷，神. 





㈣ S 


维恩图上不标岀数字本身，这是十分常见的做法。你 
可以选择在图上标出每一事件的实际概率，以此取代 
数字。具体做法完全取决于你解决问题时需要用到的 
信息。 

对立事件 

“A 不发生”事件有一种简便表示方法 A ’。 A ' 被称 

为 A 的对立事件。 


计算 P ( A ') 有一种巧妙的方法。 A ’ 包含事件 A 所不包含 
的所有可能性，因此二者，即 A 和 A ’， 肯定包含每一 
种可能发生的事件。如果某件事属于 A ， 就不可能属 
于 A '; 如果某件事不属于 A , 就必定属于 A '。 这意味 
着，要是将 P ( A ) 和 P ( A ] 加起来，结果为1。也就是说, 
某件事属于 A 或属于 A ’ 的几率为100%。于是我们 得出： 

P ( A ) + P ( A ') = 1 
或 

P(A') = 1 - P(A) 



这旅 ( D 上#出蝣禾 
是 37 ,而是乂 
此表示所唷孓属 
子 A 蛛可 U 事件. 
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把握机会 


化身庄霧 



你的任务是拕 I ) B 想象成达忮庄 
宗，篝出各种事件的梅车。针对 
" F 列毎一搴件， 写出 获得成功的 
梅率。 


P(9) 


P (錄 J 


P (黑) 


mn 
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化身庄家解答 



化身庄象斛奢 

你的任务是把 t ) S 想象成达忮庄 
宗，萁出各种事件的概车。针对 
T 列毎一 摹件，你 S 诶 B 轻获得 

所 t 结果的概车。 

、- 


P(9) 

"侉球结票糸 9" 姝槻率与“侉球锫票态7-虼槻车 
完金一稗. （ S 忌小 球该入 这兩个妹值的凡率相 4. 

槻率=―- 
38 

= 0.026 (保留三值小麩） 

?w 

唷 78 个球值是黑色.且共嘀 38 个球值，所” i : 

18 

概率=— - 
38 


P ( 錄 1 

唷雨个球值是渌色蛛，且总斿唷38个球值, 
所 " i : 

2 

概車=—- 
38 

= 0.053 (保留三值小數） 


实标上这个丰件不可试犮生，孓存在 
編号基 38 蜣球值. （ S 此.这个 f 件蜣概率 

S&0. 


0.474 (係留王值小數） 

在讨论料个 I 6 射. w 51 " 试友生 
娩等件炎小妹该入一个星色砵值 • 
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世 JlM 傻问題 


把握机会 


| o ) :我有什么必要了解概率呢？ 
我学的可是统计学。 

^ : 概率与统计学关系十分密 
切。大量统计知识起源于概率理 
论，因此*得概率会让你的统计 
学技术登上一个新台阶。概率理 
论能帮助你进行预测，发现模式， 
能帮助你穿透表面上的随机性获 
取信息。接下来我们将会详加讲 
述。 

|»): 概率是以分数、小数还是百 
分数表示？ 


答: 可以用其中任意一种，这 

并不重要，只要是介于0至1之间 
的数值即可。 

| o ) :我以前在集合论中看到过维 
恩图，这其中有关联吗？ 

^ :当然有。在集合论中，样 
本空间等于所有可能结果的集合， 
而可能事件则是这个集合的子集。 
不过，你不必为了使用维恩图计 
算概率而事先搞懂集合论，因为 
我们会在本章介绍你需要知道的 
各种知识。 


(») : 我必须画维恩图吗7我注意 
到你 在上一 个练习中并没有画。 

答： 不是必须要画。但有时 
候，在用图形方式表示概率问题 
时，维恩图会是有用的工具。接 
下来你将看到更多有关维恩图发挥 
帮助作用的例子。 

| o ) :有没有什么东西能同时存在 
于事件 A 和事件 A ’ 中 

^ : 没有。 A ' 的意思是不存在 
于 A 中的各种事物。如果某个要素 
存在于 A 中，则这个要素不可能存 
在于 Y 中。这两个事件是互斥的， 
因此二者不会共用任何要素。 


现在该动手玩了 f 

一局轮盘赌即将开局。 

观察前一页提到的几个事件，我们将把赌 
注押在最可能发生的事件上——小球会停 
在黑色球位。 



让我们潘着 
结果如何。 
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概率并非担保 


嬴钱的数字是 


天啊！我们算出的最可能概率事件是小球停在黑色 
球位上，可结果呢，它停在了绿色0球位上。你输 
掉了一些筹码。 

小球停在0球值 
—上， 函 此你輸 
\ , 掉了—些筹码. 







嘴定唷朴故办鉍；侉球结票忌黑色 
淤概率逸远窩子侉球结票忌渌色（也 
就是0> 紿概率.啷里出差 错了？ 我要 
嬴钱； 


槪幸只是对事件发生可能性的一种表达，概率并非担保。 

请记住这个重要 事实： 概率仅仅指出长期趋势。如果你打算 
玩上几千次轮盘赌，你可能该期盼每转38次有18次停在黑色 
球位上，也就是约有47%的时候停在黑色球 位上； 毎转38次 
有2次停在绿色球位上，也就是约有5%的时候停在绿色球位 
上。即使你有理由如此期盼——小球停在绿色球位的相对次 
数较少，但这并不意味着小球停在绿色球位的结果不会发生。 


无设 帛事件多么不 m 能发生， 
只耍不是完全不 ra 能发生，该 
事件就仍然 m 能发生。 
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把握机会 




红色或黒色 


让我们赌一个玎能性 E 大的事件 


让我们看一个更有可能发生的事件的概率。这次我们不押 
小球会停在黑色球位，而押小球会停在黑色或红色球位。 
为了算出概率，我们需要数出有多少球位是红色或黑色, 
用结果除以总球位数。听起来是不是很简单？ 


我们可以用已知的槪幸篝出未知的概串。 

看看你的轮盘板。小球只会停在三种颜 色上： 红色，黑 
色，绿色。由于我们已经算出 p (绿），于是可以用这个值 
求岀概率，而不必数出所有的黑色和红色球位。 

p (黑或红）= p (绿 d 

=1 - p ( 绿 ) 

=1 - 0.053 

= 0.947 (保留三位小数） 


要數的球值可禾少.我们 
已经 4 出 p (里） 和 p (渌） .皂 
许可 " i 用其中之一进行计其， 
雜就禾用數了. 


动笔 


口说无凭。数出黑色球位或红色球位的个数，用结果除以总球位 
数，由此算出停球结果为黑色或红色的概率。 
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概率相加 


动笔 

解著 


口说无凭。数出黑色球位或红色球位的个数，用结果除以总球位 
数，由此算出停球结果为黑色或红色的概率。 


P (里成紅) 


36 


38 


= 0.947 (保留王值小數） 
子是： P (黑或红）= J - P ( fS ) 


你还玎认将几个概率相加 

还有一种方法可以求出以上概率。如果已知 P (黑) * P ( 红)， 
我们可以将这两个概率加起来，得出停球结果为黑色或红 
色的概率。让我们算算看。 


P (黑或红)= 


ttr# 



5代表射空岡. 

^ 淤貫铣性. 


名兩个雜於 
U 色. ® 捕巧在达篆. 


P (黑）+ P (红) 




在本例中，将几个概率相加得出的结果与数出所 
有红色或黑色球位数再除以38的结果完全相同。 
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把握机会 



黨要綉计 t 

概窣 

也需求一个事件 A 鲶概率，其 
注也下： 

p ㈧4 


重要银计 t 

A 1 

A 1 是 A 的对立 f 件，即事件 A 
禾可铖皮金鲶事件，它鲶概率 

P ( A ') = 1 - P ( A ) 



世上没有傻问题 


(») : 似乎求解以上概率有三种方法，哪一种方法最好？ 

^ : 这取决于特定情况以及你拥有的信息。 

假定你拥有的关于轮盘赌的唯一信息是停球结果为绿 
色的概率，在这种情况下，就必须通过计算小球不停 
在绿色球位的概率： 

1 - P (绿） 

来计算要求的概率。 

另一方面，如果已知 P (黑)和？(红)，但颜色数目未知，则 
必须通过将 P (黑)和 P (红)相加来计算要求的概率。 

|»): 这么说我不用为了计算概率而没完没了去数数了？ 


^ : 通常不用，但还得看情况。不管怎么样，复核 
一下结果还是会有用的。 

(») : 如果某些事件发生的概率很小，人们为什么还要 

赌它发生呢？ 

^ : 这和庄家所承诺的回报有很大关系 。一 般说 
来，事件的发生可能性越小，事件发生时的回报就越 
大。如果賭中的事件发生概率很高，那么赢的钱就不 
会多。人们有时会对回报率高的事件孤注一掷，即使 
赌赢的几率微乎其微也不惜一搏。 

|»| : 像刚才那样将概率加起来总能获得正确结果吗？ 

^ : 请把这当作一个特例。其他情况我们将在接下 
来的几页中详细讲解。 
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这个容易.我们只要 

将里色概率和偶浐概率 
加起束. 


一个新赌注 

你蠃钱了 f 

这一回，小球停在红色球位上，数字是7，因此你贏了 
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.钱淤 球伖： 一个紅色球依 


既然你已经掌握了计算概率的窍门，那就让我们试着 
算点別的东 西吧： 小球停在黑色或偶数球位上的概率 
是多少？ 


有时候你可以把几个概 
不是在任何情況下都管用。 

我们可能无法指望能用和前面完全一样的算法 
计算这个概率。试着做一做下一页的练习，看 
看结果如何。 


再赌一爲 




把握机会 
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动动笔解答 


让我们求出“停球结果为黑色或偶数”的概率 （ 假设0和00不是 
偶数）。 

1. “停球 结果为黑色”的概率是多少？ 

18/ 38 = 0A74 

2. “停球结果为偶数”的概率是多少？ 

18/ 38 = 0.474 


3.将以上两个概率相加，结果如何？ 



梦动笔 
I 斛奢 




让我们仔细看看 
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把握机会 


至斥擧件乌相交擧件 


在我们计算小球停在黑色球位或红色球位上的概率的时候，所面 
对的是两个互斥事件——小球停在黑色球位上、小球停在红色球 
位上。由于小球不可能既停在黑色球位上，又停在红色球位上, 
因此这两个事件是互 斥的。 



畑果两 T 事件是互 
斥事件，则 只有其 
中一 T 事件尝发生。 


黑色球位事件和偶数球位事件又是怎样的关系呢？这一次, 
这两个事件不互斥，小球有可能既停在黑色球位上，又停在 
偶数球位上。这两个事件是相交事件。 



Ml 岽两 7 T 事件輸交， 
則拉两个事件有 m 
能阃的发生。 


-‘#动动蹄- 

你觉得这种相交状况会对概率有何 
影响？ 
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交集与并集 


交* 帶采的问越 

“停球结果为黑色或偶数”的计算结果之所以出现差异， 

是因为我们将“黑色兼偶数”球位算了两次。下面是具 
体分析。 

首先，我们求出“停球结果为黑色”的概率以及“停 
球结果为偶数”的概率。 

黑色 偶数 

0 P(H)=— p (偶) =— 

8 J 

= 0.474 = 0.474 J 

当将两个概率相加时，我们将停球结果为“黑色兼偶 
数”的概率算了两次。 

黑色 偶数 黑色 偶数 


这个灸集其了兩攻. 


为了得出正确的答案，须减去停球结果为“黑色兼偶 
数”的概率。 得到： 

P (黑或偶）= P (黑）+ P (偶）- P (黑兼偶） 

下面可以代人我们前面算出的值，以便求出 P (黑或 偶)： 

P (黑或偶）= 18/38 + 18/38 - 10/38 = 26/38 = 0.684 
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把握机会 


更多 表示法 


还有一种更通用的表示法，其中使用了更多简便的 
数学符号。 

首先，我们可以用 AnB 表示 “ A 与 B 的交集”，你可 
以把这个符号理解为“与”，它求出不同事件的共 
同要素。 r 这里淤 I ; 箨炎 A 门各. 




另一方面， AUB 则表示 “ A 与 B 的并集”，它包含属于 
A 及 B 的所有要素，你可以把这个符号理解为“或”。 


n 交集 
u # 集 


如果 P ( AUB )=1, 则我们说 A 与 B 穷举。它们一起形成 
整个 S , 它们穷举所有可能性。 



请用 n 和 u 符号表示上式。 
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动动笔解答 


^11 


P(A ^ ^ 

P(A U B .) = P ( A ) + Pf &) - P(A fl B .) <- 、 

•p(A 忌尽 ) 


P (黑或偶)= P (黑）+ P (偶）- P (黑和偶) 
请用 n 和 u 符号表示上式。 



那么 互砟事 件淤计其式态计么禾一 
祥？你这不是要让我记更多东曲吗？ 


实际上并无太大差别。 

互斥事件之间并无相同要素。如果你有两个互斥事件，则 “ A 交 
B ” 的计算结果其实为0——即 P ( AflB ) = 0。让我们再看看黑色球 
位或红色球位的例子。对于这个赌注，轮盘上的“停球结果为红 
色球位”与“停球结果为黑色球位”这二者是互斥的，因为球位 
不可能既是红色又是黑色，即 P (黑门红 ） =0,因此表示这一部分 
的等式就不见了。 



互斥与穷举的差别 

如果事件 A 与事件 B 为互斥事 
件，贝!1 


P(A n B ) = 0 


如果事件 A 与事件 B 为穷举事件，则 
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P(A U B ) 二1 









化 身够舉 

你的任务是粉演槪车，把维 
思®上代表 T 列概率的部位 
涂上明影。 




A 


把握机会 
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化身概率解答 





P(A n B) + P(A n b 1 ) 


s 


A 


B 


P(A' n b 1 ) 







把握机会 



绣5 


Head Rrst 健康倶乐部有50位运动爱好者接受了调查，调查问及他们是否打棒球、篮球或踢 
足球。结果有10位运动爱好者仅打棒球，12位仅踢足球，18位仅打篮球； 6位既打棒球又打 
篮球，但不踢足球； 4位既踢足球又打篮球，但不打棒球。 


画一张 维恩图代表这个概率空间。总共有几位运动爱好者打棒球？几位打篮球？几位踢足球？ 


以上运动花名册有没有互斥的？哪些运动是穷举的 （ 填满概率空间）？ 





练习解答 



斛著 


Head First 健康倶乐部有50位运动爱好者接受了调查，调查问及他们是否打棒球、篮球或踢 
足球。结果有10位运动爱好者仅打棒球，12位仅踢足球，18位仅打篮球； 6位既打棒球又打 
篮球，但不踢足球； 4位既踢足球又打篮球，但不打棒球。 

画一张维恩图代表这个概率空间。总共有几位运动爱好者打棒球？几位打篮球？几位踢足球？ 
以上运动花名册有没有互斥花名册？哪些运动是穷举的 （ 填满概率空间）？ 


将已知數据全鄯加 
起束. 结系基 so . - 
即运动爱籽者总麩. 


棒球 




足球 

' 

10 



0 


1 

18 

> 




篮妹 




(£ 上蜣信息看起来 
错惊裹存. 士过. 
焓制穣惠 ® 将唷助 
子我们看法形式. 


通过 将各个中蜣麩值相加，我们可4 确交： 祙球爱崧者的4麩基篮 
妹爱崧者姝总數态 2 8,足球爱崧老蜣4數糸 

钵球等件和足妹革件忌至斥享件，没唷值何人既打祙球又踢足妹. （ S 此 p (祙 
砵 n 足球 ） = o . 

#妹事件，篮球穿件和足妹事件是穷本於，它们共间蜞满了整个概率空间， 
<3此 p (祙球 u 足球 u 篮球 ） = f 


世上 没布儍 问题 


f 5 ) : A 和 A ’ 是互斥的还是穷举的？ 

^ : 其实两样都是。 A 和 A •不可 
能有任何共同要素，因此二者互 
斥； 若将二者相加，则形成整个概 
率空间，因此二者穷举。 


1«) : p(a n b) + p(a n b] 不就是 
P ( A ) 的复杂化表示方法吗？ 

^ : 是啊，正是如此。不过有 
时候，想出不同的方法表示同样的 
概率挺有用的。你并不总是能得到 
希望得到的信息，因此，改变一下 
思维方式绝对是一个优势。 


问：相交事償敵顚 S 麵限弟 IJ ? 

^: 并无限制。几个事件的交集 

可以多用几个 n 符号表示。例如，事 
件 A 、 B 、 C 的交集用 AnBn C 表示。 

有时候，求几个交集的概率很是棘 
手，若遇到麻烦，建议画一幅维恩 
图，并认真、专注地查看要将哪几 
个概率加起来，以及要将哪几个概 
率减去。 
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把握机会 


义一次倒霉的转动 


我们已知小球停在黑色或偶数球位上的概率为0.684,可倒霉的 
是，小球停在了23位——红色，奇数。 

不过另一爲义要孖场？ 

即使是我们喜欢的奇数也不能给我们带来轮盘赌上的好运。庄家决定 
发发善心，给我们一点点内幕消息。她将在转动轮盘后给我们一条有 



我们要賭这个结果吗？ 

假加我記知 '] 、球 ㈣ 抓球社 一 ifu L - 

(I 
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认识条件概率 


设定彔件 


庄家说小球停在黑色球位，那么小球同时停在偶数 
球位的概率是多少？ 


o 




问题略有区别 

我们要算的不是“停球结果为黑色与偶数”相对于“全 
部可能停球位置”的概率，而是在“已知停球位置为黑 
色”的情况下，求“球位为偶数”的概率。 




已知婷球该 
置巷震色 • 

换 言之， 我们要求出在所有黑色球位中有多少偶数球 
位。 在18个黑色球位中，有10个球位是偶数， 所以： 







P (黑色已知条件下的偶数） 


10 

18 



要肜在球伖 &装色 
洽偶麩谂桃隼. 


= 0.556 (保留三位小数） 

结果证明，即使得到了内幕消息，我们的胜算实际上还是较 
之前低。“黑色已知条件下的偶数”的概率实际上小于“停 
球位置为黑色或偶数”的概率。 

不过， 0.556 这个概率仍然比50%的胜算更大，因此仍是一个 
不错的赌注。让我们继续。 


黑色 


, 8 个雜奇痏 
10 个表偶鉍. 

偶数 
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把握机会 


求解彔 仵概率 

该怎么归纳这一类问题呢？首先，我们要另用一种表示法表示 
条件概率，用它来量度与其他事件的发生情况有关的某个事件 
的概率。 



如果要表示以另一个事件的发生为条件的某个事件的发生概 

率，我们就用符号表示“已知条件”，于是，“以事件 B 

为已知条件的事件 A 的概率”就可以简写为： 

在已知 B 已轻 犮生淤 
P(A I B) ^ 备件彳 A 淤撖车。 

现在要用一种通用方法来计算 P(A|B )。 我们感兴趣的是 A 和 B 
同时发生的次数与 B 发生的所有次数相除的结果。观察维恩图， 
得到： 


P(A I B) 


p(a n b) 




P(B) 

我们将算式改变一下，以便得出求 p(a n b ) 的 方法： 
P(A n B ) = P(A I B ) X P ( B ) 


由子我们试®洛出 ’ 务条 
件始 A 的概率”， 函此尸 > 对嗜 
私出现的事件集合氣矜趣. 



P(A n B) 


这还不是最终结果， P ( AHB ) 的另一种表示方法是 P ( BHA )， 即 
我们可以将算式 写成： 


P(B n A ) = P(B I A ) X P ( A ) 





概率树 


用概率树表示彔件概率 

用维恩图表示条件概率并不总是那么方便，但还有另一种 
图形，倒是能得心应手地处理条件概率，这就是概率树。 



第一级分支线上标出各种结果的概率，因此“停球结 
果为黑”的概率为18/38，即 0.474; 第二级分支线上标 
出已知所连接的上一级结果的情况下的第二级结果的概 
率。若已知停球位置为黑色，则停球位置为奇数的概率 
为8/18, BP0.444 。 
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把握机会 


利用概挛树还能计翼条件概率 

概率树不仅能帮助你以图形方式表示概率，还能帮助你计算概率。 

让我们先从总体上看看概率树如何做到这一点。下面又是一幅概率 
树，其分支数目与前面的例子中的分支数目不一样。它显示了两级 
事件： A 和 A ' 以及 B 和 B '。 A ’ 表示 A 中不涵盖的任何可能事件， B ' 表示 
B 中不涵盖的任何可能事件。 


将一个概率乘以下一级分支概率，就可以求出包含相交情况的概率。 
例如，假定要求 P ( AHB ), 可以用 P ( B ) 乘以 P(A | B ), 即，用第一级的 
B 分支概率乘以第二级的 A 分支概率。 



这炎你先箚看剎这淤同一專 
式一只要犄 違接在一起蜣 
厂 上 f 齡复 挽概車 揭象就$ 

P(A n B) = P(A I B) X P(B) 


P(A' n B) = P(A' I B) X P(B) 


P(A n B 1 ) = P(A I B 1 ) x P(B') 


P(A' n B 1 ) = P(A' I B 1 ) x P(B') 


i 事件 a 的 概率. 


使用概率树得出的结果和以前的算法相同，用不用随便你。画概率 
树很费时间，但它是一种以图形体现条件概率的途径。 
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概率磁贴 



槪窣磁贴 

邓肯圈饼店正在调查客户购买油炸圈饼和咖啡的概率。他们 画了一 幅概率 
树，用磁贴标上了各种概率。突然一阵怪风刮来，概率磁贴转眼不知所踪。 
你的任务就是将各个概率磁贴放回概率树。下面 是一些 线索。 


P (圈饼 ） = 3/4 P (咖啡 | 圈饼 '） = 1/3 P (圈饼 n 叻0啡）= 9/20 
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把握机会 


/. 穸出层级 

努力分出需要计算的概率的不同层级。例如，如果给定的条件概率 
为 P(A|B)， 则可能需要在第一级中涵盖 B， 在第二级中涵盖 A。 

2.填® &穸 倌直 

如果已知部分概率，则将这些概率写入概率树上的相应位置。 

每—级穸夹的稹率簋和为/ 

如果将从同一个点上衍生出来的所有分支的概率加起来，总和 
应该等于1。 记住: P(A) = 1 - P(A，)。 

4. fa 饽令式 

通过下列计算式可求出大多数其他 概率： 


P(B) 
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概率磁贴解答 


槪率磁贴辭答 

邓肯圈饼店正在调查客户购买油炸圈饼和咖啡的概率。他们画了一幅概率 
树，用磁贴标上了各种概率。突然一阵怪风刮来，概率磁贴转眼不知所踪。 

你的任务就是将各个概率磁贴放回概率树。下面 是一些 线索。 

P (圈饼 ） = 3/4 P (咖啡丨圈饼 •） = 1/3 P (圈饼 n 叻 _) = 9/20 
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把握机会 



邓肯圈饼店的工作还没有彻底完成！既然已经填好了概率树，请用概率树 
计 算一些 概率。 


1. P (圈饼，) 


2. P (圈饼 ’ n 咖啡) 


3. P (咖啡‘ | 圈饼) 


\料： 砂俩 私省凡种？ 
(你可 d 既襄咖啩又奚 i 饼， 
也可 ，. i 只襄咖砩禾奚®饼） 


. 也讲 你换 漆安各 
广料糾 料_. 


5. P (圈饼 | 咖啡) 
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练习解答 


你的任务是用填写完毕的概率树算出某些概率。 


斛著 


1. P (圈饼 '） 


2. P (圈饼’ n 咖啡） 


从概率批上可 " Hi 出这个麩. 
我们已轻知道 
p (® 饼）= 3/4 ' 

函此片®饼■支 7/4 . 


用 p (® 饼’)乘，仆(咖婆饼 ') 可 ..I 
得出这 个數. 我们剛才已 经求虫 
p (<8 饼 '） = 再从概丰树上看 ± 
P (咖啡 | ® 饼 '） = 7/3, 

二者相乘即得;/72 


3. P (咖啡 ’ | 圈饼） 


4. P (咖啡） 


_我们可 " iM 概率 
树上该出这个数. 


这个概 率确蚩辣寺.要是迷 
没嘀真出束也不要拉心. 

忌了彤出 P (咖 彿）. 我们需要将 
p (咖砩 n ® 饼)和 p (咖啩 n 凼饼 ’） 

加釔束 .卯： J /» 2 + 9/20 = 8/75. 


5. P (圈饼 I 咖啡) 


要彤这个概车.必锁先系也 p (咖 硪) • 
p ( i 饼 I 咖础）=?>(函饼0咖砩 VP (咖镛）， 
砰： (9/20) / (8 / 15) = 27/32, 
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把握机会 



重要綈计 t 

彔件 


P>(A | B.) = 


P(A n B.) 




世上 M 傻问题 


l ») : 我仍然不清楚 P ( AHB ) 和 
P ( A | B ) 的差别。 

^ : P ( AflB ) 是 A 和 B 同时发生 
的概率。根据这个概率无法假设其 
中一个事件是否已经发生。必须在 
不作任何假设的情况下，求出两种 
事件的发生概率„ 

P ( A | B ) 是以事件 B 为条件，求事件 A 
的发生概率。也就是说，你假定事 
件 B 已经发生，然后根据这个假设算 
出事件 A 的发生概率。 


问 : P(A | B) 和 P(B | A)- 样吗？看 
上去挺相似哦。 

^ : 这是个常见错误，可 

实际上它们是完全不一样的概 
率。 P ( A | B ) 是假定 B 已经发生，在 
此情况下 A 的发生 概率； P ( B | A ) 是 
假定 A 已经发生，在此情况下 B 的发 
生概率。二者所求的是不同已知条 
件下的不同事件的概率。 

(») : 概率树比维恩图更好用吗？ 


|»): 概率树上的分支有层级数目 
限制吗？ 

^: 理论上没有限制。你可能会 

在实践中发现，超大型概率树十分 
难以驾驭，但尽管如此，你还是会 
感到驾驭超大型概率树比脱离概率 
树进行繁复计算来得容易。 

1»):如果 A 与 B 互斥，那么 P ( A 丨 B ) 
结果如何？ 

^ : 如果 A 与 B 互斥，则 P(AH 
B )=0 且 P ( A | B )=0。 这可以理解，因 
为当 A 与 B 互斥时，两个事件不可能 
同时发生。如果我们假定事件 B 已 
经发生，则事件 A 不可能发生，因 
此 P ( A | B ) = 0。 


f 5 ) :这么说 P ( A | B ) 和 P ( A ) 是一 
样的喽？ 

^ : 不对，二者代表不同的概 
率。在计算 P ( A | B ) 的时候，必须假 
设事件 B 已经 发生； 而在计算 P ( A ) 
的时候，可以不作此类假设。 


^ : 两种图形都是以图形表示 
概率的途径，各有其妙处。维恩图 
的用处在于能指出基本概率及各种 
关系； 概率树的用处则在于条件概 
率的计算。具体使用哪种图形取决 
于你要解决的问题。 
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一个新的条件概率 



在知道小球会停在黑色球位上后，你下了一注，赌小球会停 
在偶数球位上。真倒霉，小球停在了 17上——你又输掉了一 
些筹码。 




可这个同题和前面鲶同题很相似，你 
是说我们要再画一幅概車树. 楚后 滇出 
一系列漸概 車吗？ 就禾俅用原先那幅概 
率树吗? 


可以再次使用已经用过的算式。 

上一个任务是算出 P (偶 | 黑)，我们可以利用为了解决上一个 
问题而算出的概率来计算 P (黑 | 偶)。下面是我们前面用过的 
概 率树： 
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把握机会 


利用 B 冇概率求 P (黑丨偶） 

那么如何求 p (黑 I 偶)？即使无法从概率树上直接看出这个概率，也还 
有办法通过已知概率算出这个概率。我们所需要做的是查看已知概 
率，然后设法用这些已知概率算出我们还不知道的概率。 

让我们先分析要求的最终概率。 刺用 已有的 額率， 

利用求条件概率的公式， 得出： 求出 需费的 概率。 

P (黑 n 偶） 

P (黑I偶)=- 

P (偶） 

只要能求出 p (黑 n 偶)和 p (偶)的概率，就能将这些概率代人公式，算 
出 p (黑 | 偶)。我们需要通过一些过程求出这些概率。 

觉得有困难？别担心，我们会指导你完成这个计算。 


第1 步： 求 p (黑 n 倡1 

让我们先算公式的第一 部分： p (黑 n 偶)。 
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动动笔解答 



‘斛箸 


查看背面的概率树，如何利用它算出 P (黑 n 偶)？ 


将 p (里）与 p (保丨里）相乘.可弟 ifep (農 n 偶） .即: 
p ■(黑 n 偶) = p (黑)>^(係丨里） 

〆 10 

— —— X 1 ■ 

38 

10 

— ' 

38 


19 


我们得到？什么？ 

我们希望求出 p (黑 I 偶)的概率，为此 先求： 

p (黑|偶} 


P (黑 n 偶） 
P (偶 } 


这浼个耆楨專 • 


到现在为止，我们还只是涉及了公式的第一 部分： 
P (黑 n 偶)，而你已经了解如下 算法： 


由此可得出 


P (黑 n 偶) = p (黑 ） x p 《偶 | 黑) 

P (黑 } x P (偶 I 黑） 



P (黑 I 偶) 


P(ffl) 


下一步我们求 p (偶)。 




•:換动动膊 


子是，我们可 .. i 用 P (黑） xp (涡 | 里） 
代替原公式中杨 p (黑 n 偶）. 


再看看166页的概率树，你觉得我们该如何利用概率树求出 P (偶)？ 
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把握机会 


第 么步： 求 P (偶） 

接下来求小球停在偶数球位的概率，我们可以想想发生这种结果的 
所有方式，据此求解。 

小球停在偶数球位上的情况 包括： 球位既是黑色又是偶数，或者球位 
既是红色又是偶数。这两种情况就是小球停在偶数球位上的方式。 


这表示我们可以将 p (黑 n 偶)与 p (红 n 偶)相加，得出 p (偶)。也就是 


是说，我们将“既是黑色又是偶数的球位”的概率与“既是红色又 
是偶数的球位”的概率相加。概率树上的相应分支以黑色实线突出 


奇 


得出： 



lo 8 

38 38 ie 这麥撖率取自 

18 概 率枓. 

=- 

38 


9 

19 
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逆推条件概率的推广 


步骤1求 P (黑 I 偶） 

你还记得最初的问题吗？我们曾想求 P (黑 I 偶)。 其中: 


P (黑 I 偶） 

P ( 偶 > 

一开始求的是 P (黑 n 偶)： 


P(J»n«) = P(J*) x P (偶 I黑) 


接着求出 p (偶)的表 达式: 


P (僞）= P (黑）X P (偶 | 黑)+ P (红） X P (偶I红） 

N 

将这些式子合并就可以利用概率树上的概率值计算 P (黑 I 偶)： 叙们剛访 

I 这这个结系. 



P (黑 I 偶） 


P (黑门偶） 
P (偶） 


_ P (黑 ）X P (偶 I 黑） 

P (黑） X P (偶 I 黑） + P (红） X P (偶 I 红) 





5 

=- 

9 

这说明我们现在找到了利用已知概率求解新条件概率的方法——这 
就能帮助我们解决更多错综复杂的概率问题了。 

让我们看看如何推而广之。 
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把握机会 


上一页的结果玎认推广到其铯问翅 

假想你有一幅概率树，上面显示了事件 A 和事件 B 的概率，假定 
已知每个分支的概率 如下： 



现在，假设你要求 P ( A | B )， 并且知道上面的概率树上所显示的 
信息。请问如何使用已知概率求出 P ( A | B )? 

我们可以从以前算过的公式 开始： 

P(A n B) 

P(A I B)= - 

P(B) 

现在，可以用概率树上的概率求出 P ( AnB ), 换句话说，我们可 
以使用下式计算 p ( AnB ): 

P ( ADB )= P ( A ) x P ( B | A ) 

但如何求 P ( B ) 呢？ 

- #动动膊- 

好好观察概率树上的概率。如何利用这些概率求出 P ( B )? 
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全概率公式 


利倒全 概孪公 式求蘇 p ( p ) 


让我们使用之前求解 P (偶)的相同步骤求解 P ( B )。 我们需要将想得到的事件 
的所有可能发生方式的概率相加。 


事件 B 有两种发生 方式： 与事件 A —起 发生； 不与事件 A —起发生。即可以 
利用下式求出 P(B): 

P ( B ) = P(A n B ) + P ( A ' n B )^- 


杷这兩个灰集梢力 0 ’ 
掩奸⑹. 


我们可以根据从概率树上得知的概率，重写这个 式子： 

P(A n B ) = P ( A ) x P(B I A ) 
P(A' n B) = P(A') x P(B I A 1 ) 

得出： 


P(B) = P(A) x P(B I A) + P(A') x P(B | A 1 ) 



这个公式有时被称为全槪率公式，因为它提供了一种 方法： 根据条件概 
率计算一个特定事件的全概率。 



既然已经求出 P(A n B ) 与 P ( B ) 的表达式，就可以将这两个式子 
放在一起，得出 P(A | B ) 的表达式。 
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把握机会 


汄轵 R 吋斯定理 


首先，我们想从概率树上已知的概率求出 P ( A | B ), 我们已知 
P ( A ), 且已知 P ( B | A ) 和 P ( B | A ') 0 现在所需要的是一个求解条 
件概率的通用表达式，该公式是已知条件即 P ( A | B ) 的逆运算。 


我们 先算： 


P(A I B ) 


P(A n B) 


痉过代接, 
这个么'式 • 


我们在127页求出 P(API B ) = P ( A ) x P ( B | A ) ,又在前一页求出 
P ( B ) = P ( A ) x P ( B | A ) + P ( A ') x P ( B | A ') 0 

将以上两个结果代入公式， 得出： 

P(A) x P(B I A) 


P(A I B) 


P(A) x P(B I A) + P(A') x P(B I A 1 ) 


歆轻松 


贝叶斯定理是概率理论 
中最难掌握的部分之一。 

若是看着觉得复杂，别 
担心，它计算复杂结果 
的能力也一样强。尽管公式棘手，我们却 
能借助图形得到帮助。 




这个公夂. 


这就是所谓的贝叶斯定理。该定理提供了一种计算逆条件概率的方 
法，在你无法预知每种概率的情况下，它十分有用。 


已知 A , 要求 
P(A I . 


这个 i ■支 
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加强练习 



>強绣 g 


芒芒游戏公司正在测试两种新游戏，他们邀 请一群 志愿者选择自己最喜欢玩的游戏，玩好 
以后告诉芒芒公司对游戏的满意程度。 


80%的志愿者选择了游戏1, 20%的志愿者选择了游戏2。在游戏1玩家中，有60%的人 
觉得好玩，40%觉得不好玩。而游戏2玩家中有70%的人觉得好玩，30%的觉得不好玩。 

你的第一个任务就是填写 这一例 子的概率树。 
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把握机会 


芒芒公司随机挑选了 一名志 愿者，问她游戏是否好玩，她说好玩。这位志愿者觉得她所玩的这款游戏 
好玩时，她玩游戏2的概率有多大？请使用贝叶斯定理。 

提示： 某人选#趨戏 2 并戴刭滿 意鲶概率是多太？ 

其人无论虼啷种镟戏都威到潙意鲶概車省多太？ 

只要想通这兩个问题，就铖用贞叶斯定娌$出正确鲶答案. 
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强化练习解答 





芒芒游戏公司正在测试两种新游戏，他们邀 请一群 志愿者选择自己最喜欢玩的游戏，玩好 
以后告诉芒芒公司对游戏的满意程度。 


80%的志愿者选择了游戏1, 20%的志愿者选择了游戏2。在游戏1玩家中，有60%的人 
觉得好玩，40%觉得不好玩。而游戏2玩家中有70%的人觉得好玩，30%的觉得不好玩。 

你的 第一个 任务就是填写这一例子的概率树。 


我们知道每值虼家选择每种潋戏鲶概率, 
函此可 ..4 用这些概車画出第一级今主. 



我们达知道每一依故家对所达挿的 
遨我氟 iij 涑意戋系瀵老淤橄車. 

满意 

禾满意 

满意 

禾满意 
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把握机会 


芒芒公司随机挑选了 一名志 愿者，问她游戏是否好玩，她说好玩。这位志愿者觉得她所玩的这款游戏好玩时, 
她玩游戏2的概率有多大？请使用贝叶斯定理。 

我们要用贝吋斯定娌弟出 P (雜戏2丨谋惫）.公式 办下： 

P (银戏 2) p (潙老 | 薄戏 2) 

P (箱戏2 | 满惫）=- 

P (雜戏 2) P (嫌惫丨雄戏 2) + P (雄戏0 P (滇惫 | 银戏 J ) 

让我们从 P (雄戏 2 ) P (淇意 | 蝣戏 2 )其起 

我们已经知道 P (雄戏 2) = 0. 2 且 P (满砉丨趙戏 2) =0.7 .即： 

P (银戏 2) P (涑砉 | 趨戏 2) = 0.2 x 0.7 

= 0.14 

摟下束需要求 P (雜戏 0 P (漢意 | 薄戏 0. 我们已经知道 P (涑意 | 港戏0 = 0.64啟1>(雄戏 7) = 0.8 .即： 

P (银戏 I ) | 银戏0 = 0.“ 0.8 

= 0.48 

将上式代入贝叶斯吏娌公式 ，得： 

P (银戏 2) P (汰意 | 银戏 2) 

P (银戏2丨淇意）=- 

P (银戏 2) P (满意 | 雄戏 2) + P (趙戏 7) P (涑惫 | 雄戏 7) 

0.14 

0.14 + 0.48 



= 0.ZZ6 
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重要统计量 


g 重要雜计 t 

y 全概李公式 

也票唷兩个 f 件 A 和 则： 


T>(B.) = Pffe n A) + P(B n A') 

=P(A) P(B. I A) + P(A') P(B. I A') 

金概車公式是贝叶斯定娌淤今母. 
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世 _fc ㈣ 傻问题 


把握机会 


l ' 5 ) :什么时候使用贝叶斯定理呢 

^: 在需要求出条件概率，且该 
条件概率与已知条件概率顺序相反时 
使用。 

1 ») :我必须画概率树吗？ 

^: 你可以直接使用贝叶斯定理, 
也可以使用概率树进行辅助。使用贝 
叶斯定理更为直接快捷，但务必记 
住各个概率。在你忘记贝叶斯定理 
时，概率树很有用，不仅可以让你 
得出相同的结果，还能让你免于忘 
记每个事件所对应的概率。 


P 5 ) :在轮盘赌问题中，当我们计 
算 P (黑 I 偶)时，并没有将小球停在绿 
色球位的任何概率计算进去。我们弄 
错了吗？ 

^ : 不，没有弄错。轮盘上仅 
有的两个绿色球位是0和00,我们并 
不将这两个数字计入偶数。也就是 
说， P (偶 I 绿)等于0,因此，这对计 
算结果没有影响。 

|»):经计算，概率 P (黑 I 偶)与 P (偶 I 
黑)相等：都是5/9。总是这样吗？ 

答： 的确，这里的 P (黑 | 偶）和 
P (偶 | 黑)是一样的，但这并不表示其 
他情况也是如此。 


如果你有两个 事件： A 和 B , 不能假定 
P(A | B ) 和 P ( B 丨 A ) 会得出相同的结果。 
二者指的是不同的概率，实际上，作 
那样的假设会让你在统计学考试中 
丢掉宝贵的分数。你需要使用贝叶 
斯定理，确保得出正确的答案。 

|»): 贝叶斯定理在现实生活中有 
用吗？ 

^: 实际上非常有用。例如，在 

计算机科学中，可以用它过滤电子 
邮件及检测垃圾邮件，有时它还用在 
医学试验中。 


嬴钱3 f 

恭喜恭喜！这次小球停在10号球位上——黑色兼偶数。你 
贏回了一些筹码。 
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独立事件 


再赌最后一次 

在你撤离轮盘赌之前，庄家给你的最后一注开了个大 、 
价钱： 贏三倍，或赔光——如果你赌小球会连续两次 
停在黑色球位上，有可能贏回所有筹码。 

下面是概率树。注意，“连续两次停在两个黑色球位 
上”的概率与166页上求解的概率有点儿不一样，在 
166页，我们试图计算在已知球位为黑色的条件下，停 
球结果为偶数球位的可能性。 
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把握机会 


如果 几个拳 件至冇影响，则为 相兵事件 

“小球前后两次停在黑色球位上”的概率与“小球停在已知 
为黑色球位的偶数球位上”的概率略有区别。请看下面的 
概率 算式： 


口{偶| 黑 } = 10/18 = 0.556 < —~- 、 

对于 P (偶 | 黑)来说，“停在偶数球位”的概率受到“停在黑 
色球位”的概率的影响，我们知道小球已经停在黑色球位 
上，于是利用这一点计算 概率： 我们査看在所有黑色球位 
中，有几个球位是偶数。 

如果我们不知道小球已经停在黑色球位上，则概率会不一样。 
为了计算 P (偶) ： 我们查看在所有的球位中，有几个球位是偶数。 

- --- 

P (偶> = 18/38 = 0.474 - - - 

P (偶 | 黑)得出了与 P (偶)不一样的结果，换句话说，我们所 
得知的“球位为黑色”的信息使概率发生了改变。我们说 
这两个事件是相关事件。 


. 这兩个概丰是 
尽一禅蝣 


如果用通用术语表达 就是： 如果 P ( A 丨 B ) 与 P ( A ) 不等，则我 
们说事件 A 与事件 B 是相关事件一这等于说事件 A 与事件 B 
的概率相互影响。 
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独立事件 


如梁几个事件至不影响，则 为独交擧件 

并非所有事件都是相关事件，有时候，几个事件相互之间完全 
没有影响，无论其他事件发生与否，某个事件的发生概率总是保 
持不变。例如，请看 P (黑)和 P (黑 I 黑)的概率，你注意到什么了？ 


P (黑 )= 18/38 = 0.474 4 
P (黑 | 黑卜18/38 = 0.474 



这麥 概率 ㈣ 
与 f 件柏至 独立. 


以上两个概率数值相同，换句话说，“小球在这一局停在黑色球 
位上”事件对“小球在下一局停在黑色球位上”事件没有影响， 
这两个事件是独立的。 


独立事件彼此之间互不影响——不以任何形式相互影响对方的概 


率。若一个事件发生，其他事件的概率保持原样，纹丝不变。 



如果事件 A 和事件 B 相互独立，则事件 A 的概率不受事件 B 的影响, 
换句话说，对于独立事件 来说： 


P(A I B) = P(A) 


我们还能用以上公式进行独立性检验。如果你有两个事件 A 和 B , 
且 P(A | B ) = P ( A ), 则事件 A 和事件 B 必然相互独立。 
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把握机会 


爯谈独交事件概率 i 十箕 

独立事件的其他概率也很容易计算，例如 p(a n B )。 
我们已经知道 


p(a n b ) 

P(A I B )= - 

P ( B ) 


如果 A 和 B 是独立事件，则 P(A I B ) 与 P ( A ) 相同。即对于独 
立事件 来说： 


p(a n B ) 

P ( A )= - 

P ( B ) 

或 

P(A n B) = P(A) x P(B) 

换句话说，如果两个事件相互独立，则通过将两个事件各 
自的概率相乘，可以算出同时发生这两件事的概率。 



斥事件。 


如果 A 、 B 星互斥事件， 
M 二者不会 S 独立事 
件；如果 A 、 B 是独立 
搴件，则二者不会是互 


如果 A 和 B 是互斥事件，即如果事件 A 
发生，则事件 B 不发生。这意味着 ， A 
的结果会影响 B 的结果，于是这二者 

相关。 


与此相似，如果 A 和 B 是独立事件，则 
二者不会互斥。 




现在该计算另一个概 率了： “小球连续两次停在黑色球位上” 
的概率是多少？ 
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动动笔解答 


现在该计算另一个概 率了： “小球连续两次停在黑色球位上” 
的概率是多少？ 

我们需要尔 p (第一届黑色 n 第二扃里色).由子这兩个事件相互独立， （§ 此： 

18/38 x 18/38 = 324/ J 444 

= 0.224 (保留王值小數) 


%^动笔 
A 、解著 


世上 M 傻问题 


1»): 独立事件和互斥事件有何 

差別？ 

^: 假想你有两个 事件： A 和 

B 。 如果 A 和 B 互斥，则在事件 A 发生 
时， B 无法发生。同样，如果事件 B 
发生，则 A 无法发生。换句话说，二 
者不可能同时发生。 

如果 A 和 B 是独立事件，则 A 的结果 
对 B 的结果没有影响，同时 B 的结果 
对 A 的结果没有影响。二者各自的结 
果对对方没有影响。 

f 5 ) :两个事件必须同时为独立事 
件吗？能不能其中一个事件是独立事 
件，而另一个事件是相关事件？ 

^ : 不能，两个独立事件指的 
是“相互”独立，因此不可能一个 
是相关事件，另一个是独立事件。 


|»): 轮盘赌中的每 一局都 是独立 


事件吗？为什么？ 

^: 没错，都是独立事件。轮 
盘的每一次转动都不会前后影响。 
小球在每一局中停在红色、黑色或 
绿色球位上的概率是不变的。 


重要银计鵞 

独交性 

也票 A 和■&相独立 ，则： 



fo ) :你已经演示过如何使用概率 


P(A | B.) = P(A) 


树论证独立事件。如何使用维恩图判 
断几个事件是否相互独立？ 

^ : 维恩图的确不是体现相关 
性的最好方法。维恩图在检验交集、 
表现互斥事件方面表现极佳，但在 
表现独立性方面效果并不好。 


也票上式对值何兩个事 
件成立，则这雨个穿件 
必忌独立事件. 间时： 

P(A n B.) = P(A) x P>(B.) 
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把握机会 


瑜伽班与游泳班案例 

Head First 健身俱乐部为自己能为每一位前来健身的人找到合适的班 
级感到自豪，这正是俱乐部风靡老中少健身者的原因。 

健身俱乐部目前正在动脑筋，为的是最有效地推销它新开设的瑜伽 


5穸钟 
推琪 



班，他们想知道，是否参加游泳班的人更有可能参加瑜伽班。 
许我们可以给游泳班学员一些折扣，鼓励他们参加瑜伽班。 


也 


首席执行官不同意。“我想你们错了”，他说，"我想参加 
游泳班的人和参加瑜伽班的人是相互独立的，我不认为参加 
游泳班的人比其他人更有可能参加瑜伽班。” 


他们调查了96个人，问他们是否参加游泳班或瑜伽班。在这96个人 
中，有32人参加瑜伽班，72人参加游泳班。有24人最为积极，两个 
班都参加了。 

那么，谁对谁错？瑜伽班和游泳班是相关，还是相互独立？ 
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面对面：相关与独立 


® 对® 



今夜谈：相兵鸟独 i 探讨相亙问的差异 


相兵： 

独立老兄，很高兴看到你露面。我早就想逮住你 
问问了。 

哦，我听说你总给菜鸟统计师惹麻烦，没有你的 
时候，他们干得很顺利，可是只要你一来，天啦， 
错误概率就满天飞啊！小 n 尤其对你有意见。 


就是你这种简单的态度给人们带来了麻烦。他们 
想： “嘿，这位独立老兄看起来挺简单，我就用 
他来算这个概率。”然后呢，你知道的， n 把所 
有的概率胡乱混在一起。这可不是处理相关事件 
的正确方法。 


独 


是吗，相关老兄？为什么呢? 


我有点儿伤心呢，小 n 居然说我的坏话，我以为 
自己让他过得轻松了呢。他想算出发生两个独立 
事件的概率？容易！只要把两个事件的概率相乘, 
就大功告成了。 


你言过其实了。即使人们决心用我而不用你，也 
不见得会引起多大差别。 


你不明白事情的严重性。如果人们按照你的方式 
计算 n 概率，而事件是相关事件，那么他们肯定 
会得岀错误答案，这可不太好。对于相关事件， 
只有在考虑小 | 的时候一小 | 代表已知条件，你 
才能得出正确答案。 


我不能说自己给了他们很多关注。对于独立事件 
来说，概率结果都是一样的。 
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把握机会 


相兵： 独 i : 

你又来了——你把事情看得过于简单。好吧，我 
已经说得够多了。我想人们应该首先想到我，而 
不是你，才能把所有这些问题都搞清楚。 

是吗？怎么会这样呢？ 

彻底想清楚事情是不是相关事件。我来举个例 
子： 假设你有一副牌，共52张，其中13张是方块。 

想象你随机抽了一张牌，发现是方块。发生这个 
事件的概率有多大？ 

这简单。13/52,或者说1/4。 


再抽第二张牌会怎样？抽出第二张方块的概率是 
多大？ 

—样嘛，对不？ 1/4。 

不对！这些事件是相关的。你不能再认为这副牌 
里有13张方块一你已经抽掉了一张，因此只剩下 
51张牌，其中方块12张。概率变为12/51,或者说 

4/17 ° 不公平，我以为你把第一张牌放回去了！ 

那就意味着抽出方块的概率和以前一样，我就是 
对的。这些事件应该是独立的。 

但它们不是。当人们首先想到你的时候，他们就 
会作出许多不恰当的假设。这就难怪小 n 乱成一 

团了。 哦，谢谢你给我讲这些，相关老兄，很髙兴我们 

有机会把事情讲清楚。 

别放在心上，下次考虑事情小心全面一些就行了。 
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5 分钟推理破解 


破解：瑜伽班与游泳班案例 


瑜伽班和游泳班是相关的还是独 * 的？ 

首席执行官是对的——两个班是独立的。 
下面是他了解的 信息： 

96人中有32人上瑜伽班， 因此： 

P (瑜伽 ） =1/3 
72人上游泳班， 因此： 

P (游泳 ） = 3/4 
24人两个班都上， 因此： 

p (瑜伽 n 游泳 ） =1/4 


5穸幸中 



可我们怎么知道这两个班是相互独立的呢？让我们将 P (瑜伽)和 
P (游泳)相乘，看看结果。 


P (瑜伽 ） x P (游泳 ）= 1/3 X 3/4 


=1/4 

由于这个结果等于 p (瑜伽 n 游泳），于是我们知道两个班级是相 
互独立的。 
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把握机会 


一扣兴您長推总？- 

下面是一些情况和事件，请说出哪些是相关事件，哪些是独立事件。 


相兵 独交 

掷出硬币，连续两次正面朝上。 I ~~ I I 一- 1 


从抽屉里拿袜子，直到找出一双。 


从一盒巧克力中随机拿巧克力，连续两 
次拿到黑巧克力。 

从一副牌里拿出一张牌，然后抽出另一 
张牌。 

从一副牌里抽出一张牌，将这张牌放回 
去，然后抽出另一张牌。 


在星期二 （ 已知条件）下雨。 
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相关还星独立？解答 


一扣兴您是雜总？- 

解鲁 

下面是一些情况和事件，请说出哪些是相关事件，哪些是独立事件。 


掷第二枝硤巾娩概車不受 
掷第一牧破布淤彩响. 

掷出硬币，连续两次正面朝上。 


在取土一只钰务后，下一次取妹务时 .康束 
淤妹3■軚就減少了.这会彩响概率. 

\^从抽屉里拿袜子，直到找出一双。 


相兵 独立 


7 



从一盒巧克力中随机拿巧克力，连续两 
次拿到黑巧克力。 



从一副牌里拿出一张牌，然后抽出另一 
张牌。 



从一副牌里抽岀一张牌，将这张牌放回 
去，然后抽出另一张牌。 


在星期二 （ 已知条件）下雨。 



禾会由子是星期二而更唷可铋下兩 
或禾下兩，函比二者是独立事件. 
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把握机会 


蠃钱？ f 蠃钱？ f 


轮盘连转两次，小球都落在30号红色球位上一你贏了 
双倍。 

你已经在肥蛋赌场的轮盘赌桌上学了大量概率知识， 
这些知识将在赌场中的其他赌博游戏中派上用场。不 
过，可惜哦，你收人荷包的筹码可不够多哦。 

H 犯蛋賭场 消惠： 

我们 杠了 一口气 .] 


其是太崧了，我们知道贏取各种醏注 
鲶几率.禾过，除了概率，是禾是该 
多僅一些.豸铖智胜醏场？ 


除了■[钱概幸，还需要知道贏钱的金颤，以便 
决定是否该爾险 下注。 

对于一个概率极低的事件，如果回报足以弥补 
所承担的风险，则值得押上一注。在下一章中， 
我们将看看如何将回报纳人概率计算式，帮助 
我们作出更有根据的赌博决策。 





•mi 
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概率谜题 


健忘聆棼餐考 

三位健忘的朋友决定外出用餐，但他们忘了打算在哪儿会面了。 
弗莱德决定掷硬币 帮忙： 如果正面着地，则去蒂勒餐厅；如果反 
面着地，则去意大利餐厅。乔治也掷了 硬币： 正面着地，去意大 
利餐厅；反面着地，去蒂勒餐厅。罗恩决心只去意大利餐厅，因 
为他喜欢那家餐厅的食物。 

三位朋友见面的概率有多大？ 其中一 位单独用餐的概率有多大？ 
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把握机会 



下面再增加一些轮盘赌概率，供你练习。 


1.已知停球位置为黑色，求小球停在数字17的概率。 


2. 小球连续两次停在22球位的概率。 


3. 已知停球位置为红色，求小球停在编号大于4的球位的概率。 


4. 小球停在1、2、3或4的概率。 
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谜题解答 


三位健忘的朋友决定外出用餐，但他们忘了打算在哪儿会面了。 
弗莱德决定掷硬币 帮忙： 如果正面着地，则去蒂勒 餐厅； 如果 
反面着地，则去意大利餐厅。乔治也掷了 硬币： 正面着地，去 
意大利 餐厅； 反面着地，去蒂勒餐厅。罗恩决心只去意大利餐 
厅，因为他喜欢那家餐厅的食物。 

三位朋友见面的概率有多大？其中一位单独用餐的概率有多大？ 



= J X 0.5 X 0.5 = 0.25 


唷7个人单独用餐姝精况是：辛策德和养治去希 
勒 餐厅：奉策德 去蒂勒餐厅，而养治去意太利餐 
厅 ： 成乔治 去蒂勒 餐厅. 而车 策德去 I 太利餐厅. 

(0.5 x 0.5) + (0.5 x 0.5) + (0.5 x 0.5) = 0.75 
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把握机会 



下面再增 加一些 轮盘赌概率，供你练习。 


1.已知停球位置为黑色，求小球停在数字17的概率。 

黑色球值唷78个，其中之一编号 77. 

P ( J 7 | g .) = 1/18 = 0.0556 (保留王值小數) 


2. 小球连续两次停在22球位的概率。 


我们需要求 p ( 22 n 22 ).由子这 些事件 是独立事件， （§ 此这个 
K 务等子 P (22) XP (22). 侉球结票忌22的槻率是7/38,(2 此： 

P (22 022) = J /38 x J /38 = 1/1444 = 0.00069 (保留五值小數) 


3. 已知停球位置为红色，求小球停在编号大于4的球位的概率。 

P (太子 4 \ il .) = 1 - P (4 武 4" i 下丨红) 

小子 4 淤红色球值嘀 2 个， （ S 此： 

1 - ( 1 / 1 S + 1 / 18 ) = 8/9 = 0.889 (係留三值小數) 


4.小球停在1、2、3或4的概率。 


每个球值蛛概率忌 V 38. ( S 此所述事件蜣概率糸 
4 X 7/38 = 4/38 = 0.105 (保留王值小麩） 
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5 离殽概率分布的运阁 


气善用期考望+ 



意外从天而降，未来如何演变？ 

前文讲到如何通过概率得知发生某些事件的可能性的大小。可惜概率并非万能, 
它无法指出所发生的这些事情的整体影响，也无法指出这种整体影响对你的具体 
影响。不错，你有时会在轮盘赌中大赚特赚，但你赚到的钱真的填得平那些赔 
掉的钱吗？在本章中，我们将讲述如何利用概率预测长期结果，以及如何量度 
这些预测结果的确定性。 
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老虎机踣率 


重矽肥蛋赌场 




你曾经痴迷于老虎机忽闪忽闪的灯光吗？ 
好吧，你走运了，肥蛋赌场有一长排灯光 
闪闪的老虎机等着你来玩呢，让我们来到 
其中一台老虎机前，以1美元一局（拉一次 
杆）的赌本玩起来。没准儿你会大发一笔！ 

这台老虎机有三个窗口，如果三个窗口全 
部恰到好处地亮起来，成堆的硬币就会滚 
滚而下。 


大把嬴钱省迖先滿请淼，俚在丹 
醏之前.我希¥先搞嬙楚撞上这 
些伹合的概车. 


I —— ^ — — : 

每眉/ 务宂 

$ $ $ =$ 20 

$ $ (任意順序 ）=$15 

^^^=$20 

QOQ =$5 


似乎我们是有办法算一算的。下面是一个特定图像 
出现在一个特定窗口中的概率。 


樓桃出现在这个窗 
口中的概車是 0 . 2 . 


其他窗口中出现的图像没有影响。 


$ 

7 

櫻桃、 

柠檬 

其他 

0.1 



0.2 

0.5 


这三个窗口相互独立，即每个窗口中出现的图像对 
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善用期望 


化身赇徙 



看一看上一页的老虎机 海級， 你的任 务是化身赌徒 . 篝 
k 出海报上的各 种组含 的崖生槪车。一 无所获 的概车 
是多少？ 


$ $ $的痧率 

% 寧获的痧率(任意檸疼) 

QQQ^^ 

获获获的稹率 

—5 &所获的稹率 
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化身赌徒解答 


化身婢徙解著 



看一煮上一页的老虎机海报，你的任务是化身赌徒，篝 


出海报上的咅种组含的龙生概车。 一 无所获的概车 


是多少？ 


$ $ $的概率 

t >(4, 4, 4) = 口(4) x p (4) x p (4) 

= 0.1 X 0.1 X 0.1 

= 0.001 一个窗口中出现一个義 

元苻号的概車是 0.7. 

$ f 获的粮率(任意檸疼) 

出现这种组合始倩况唷 三种： 

P (4, 本樓桃）+ T > ct , 樓桃, 4) + P (摟枧, 4, 4) 

= ( 0 . 1 2 X 0.2) + (0.7 2 X 0.2) + ( 0 . 1 2 X 0.2) 

= 0.006 



P (科樣,柠樣,拧樣）= P 消樣 ） X P (軒棣 ）X P (科棣） 

P (摟桃,樓桃，樓桃）= P (樓桃 ）X P (摟桃 ）X P (樓枧） 

-个窗 o 中出规- -^ 0 2 x 0 2 x 0 2 

= 0.2 X 0.2 X 0.2 

个朽镙与其他兩个窗 


C 7 中出 现奸祿 是桐立 = 0 008 

= 0.008 

独立蝣等件， （3 此 


将这三个概率相乘. 



— 无斯获的够率 

即没省撞上值何赢钱徂合蛛概率. 


与其真 电斯嘀 可铋 ； b 规淤赔钱方式， 
( 迷系办帛 ；) iP (醅钱 ） =, — p (嬴钱). 


p (賠钱 ） =» -7>(4 H )- p (4, 本摟栊（任意顺冷 )）- p (樓桃，摟槐，褛桃） - p (枵樣,枵樓,竹捸) 


= 1 - 0.001 - 0.006 - 0.008 - 0.008 
= 0.977 


这是前面箕出的四个概率 • 
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善用期望 


我们玎认写出老虎机概率竺变 


下面是老虎机的各种赢钱组合的概率。 



撖率波行汇息而已. 


组合 

无 

柠欏 

櫻桃 

美元 / 櫻桃 

美元 

概率 

0.977 

0.008 

0.008 

0.006 

0.001 


这铱表看上去很唷用，禾过我在想，我们是不是 
铋够再深入 一些？ 我们已轻求出了每种赢钱组合始 
概車，俚我们真正威兴趣蜣炎铖赚多少钱或者会 
赔多少钱. 


我们不仅想知道贏钱的概串，还想知道賺钱数额一收益 

目前我们是基于符号组合来写概率，这就很难一眼看出我们能赚多 
少，好在我们并不一定要这样写。 

现在让我们放弃基于老虎机图形写概率的做法，代之以基于每一局 
的收益或赔付写概率。为此还需做这样一个 计算： 用每一个组合对 
应的赢金 （ 即海报上注明的金额）减去玩一局的本金 （ 1美元）。 



若禾秘撞上嬴钱组 
合，就得賠掉 7 星无. 


间辑淤概率.但 
各子收益■写呶 • 


组合 

无 

柠欏 ... 

« 桃 

苒元 /W 桃 


收益 ^ 

$1 


$9 

$14 

$19^^ 

槪率 /' 0.977 

0.008 

0.008 

0.006 

0.001 


撞上某种赢钱徂合后淤收 
益=襄金- 7美无净金. 


表格给出了赢局的概率分布 —— 即老虎机每一种可能 
收益(或赔付)所对应的概率的集合。 


第5章 离散概率分布的运用 201 




概率分布细细看 





在推算老虎机概率时，你计算了每个贏局（或赔局）的概率，即，你计算了一 
个随机变量的概率分布。随机变量是一个可以等于一系列数值的变量，而这一 
系列数值中的每一个值都与一个特定概率相关联。在肥蛋赌场老虎机这个例 
子中，随机变量代表我们将在每一局赌局中贏得的收益。 

随机变量通常用大写字母表示，如 X 或 Y; 变量能够采用的特定数值则用小 
写字母表示，如 x 或 y 。 于是， P(X = x) 则表示“变量 X 取特定数值 x 的概率”。 

以下是用上述表示法表示的老虎机的概率 分布： 


达篆 支 1C 


每个毡合蜣收 
益” k 表示. 


组合 

无 

柠檬 

樓桃 

美元/櫻桃 

、美元 

X 

-1 

4 

9 

14 

-^19 

P(X = x) 

0.977 

0.008 

0.008 

0.006 

0.001 


这里的变量具有离散性，即该变量只能取确定数值。 


J 量 X 寻子 9 (即 收盖 
冶 9 羞元 ）的概车 


除了拟定概率分布表，我们还可以用图形来表示概率分布。下面是一张条形 
图，用于表示老虎机的概率。 

老虎机概率 


醣7基元鹼 
慨率接 ill 


在这种条形®上，长方形 
兆常细，简直就是一备伖. 


收盖态 4 羑元. 9 H 14 
羡无和彳 9 義元鹼概車太小 
7,在 ( S 上几净看不'出束 • 
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善用期望 



1»): 我们为什么不能用符号，反 

而要用数字呢？我可没把握是不是真 
的会赢那么多钱。 

^: 我们可以用符号，但用数字 

代替符号能做更多事，因为数字可 
以参加计算。例如，你即将看到如 
何利用这些数字计算我们能够期望 
在每一局赌局中赢多少钱。如果只 
用符号的话，可作不了这样的预测。 

Ip ) : 如果我想用维恩图体现概率 

分布，能办到吗？ 

^:用这个方法体现概率分布不 
是特别合适。维恩图和概率树在计 
算概率时很有用，但对于概率分布 
来说，所有概率都早已计算好了。 


世傻问越 

1»): 我能用任意字母表示某个变 

量吗？ 

^: 可以，只是别用乱了。最常 

见的情况是用字母表末尾的几个字 
母来表示，例如 X 和 Y 。 

1»): 我应该用相同的字母表示 

变量和数值吗？或许我该用 X 代表变 
量， y 代表数值？ 

^: 从理论上讲这并非不可，不 

过在实际应用中，你会发现用不同 
的字母更容易引起混淆，最好坚持 
用相同的字母分别表示变量和数值。 

1»):你说过，离散随机变量就是 
能精确指出其数值的变量，我倒觉得 
每个变量都有这种特点，难道不是吗？ 


^ : 并非如此。在老虎机例子 
中，你确切地知道每一种符号组合 
的相应收益—确切得不能再确切， 
无论玩多少次，对于每一局赌局来 
说，可能的赢钱教值都保持不变。 

但还有一些时候，你得到的是一个 
数值范围，这个数值范围内的任何 
数值都有可能出现。例如，假定要 
求你测量一些长度在10英寸到11英 
寸范围内的丝线的具体长度，那么， 
丝线长度完全可以是这个范围内的 
任何数值。 

暂时不用过于担心其中区别，我们将 
在本书后续部分详加说明。目前，我 
们所研究的随机变量都将是离散性的。 
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离散概率分布的期望与方差 


期望涛示预测结果…… 

你已经有了老虎机的收益概率分布，但现在需要知道自己能 
够期望获得的长期收益。为了算出这个期望数额，可以先算 
出在典型情况下可以期望每一局赢多少或赔多少，即可以求 
出统计学上的所谓期望。 

变量 X 的期望和均值有点儿像，甚至连计算方法也相似，但 
它描述的是概率分布。为了求出期望，可将每个数值 X 乘以该 
数值的发生概率，然后将所有乘积求和。 


变量 X 的期望通常写作 E ( X ), 但有时候也会写作也就是 
均值的符号。我们这样打比 方吧： 期望和均值是一对双胞胎, 
但一出生就由不同人家领养了。 


下面是 E ( X ) 的计 算式： 

下面是 e ( X ) ^ E ( X ) 
的计其式: 


掩每个軚值与其概車相象 



犄阶嗜象积桐加. 



E(X) = 


让我们用这个算式计算老虎机的收益期望。下面是所用 
概率分布的提示 数字： 


X 

_1 

4 

9 

14 

19 

P(X = x) 

0.977 

0.008 

0.008 

0.006 

0.001 


E ( X ) = (-1 x 0.977) + (4 x 0.008) + (9 x 0.008) + (14 x 0.006) + (19 x 0.001) 
=-0.977 + 0.032 + 0.072 + 0.084 + 0.019 

= '°- 77 «^_让我们用这个名式计真老虎机鲶收益翔望. 

~ 下南是 祈用概率兮沛嬈提赤数官： 

换句话说，在多次拉杆之后，你能够期望每一局赔掉 0.77 
美元，也就是说，如果玩100次老虎机，你能够期望赔掉 
77美元。 
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善用期望 


老虎机槪率 




我想……&票期 f 与动 
值相似，铧么铖不铖使用 
其种方差呢？我们之前就 
是这掸做蜣. 


概率分布确实有其方差。 

期望指出一个变量的典型值或平均值，但并不提供 
有关数值分散性的任何信息。在老虎机赌博中，如 
能得到分散性信息，我们将能更多地了解潜在收益 
的变化情况。 

像第3章中的做法一样，我们可以使用方差来量度这 
种分散性。让我们看看具体做法。 
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方差指示 结果的分殽性 

期望指出每一局赌局能够期望得到的平均收益，如果每一次都赔这么多 
钱，那么赌博有何乐趣？谁又愿意赌博？ 

有理由期望每一局赌博都赔钱并不表示连一丁点儿贏大钱的希望都没有。 
和均值一样，期望并没有全面体现出每一局赌局有可能存在的收益变化。 
你觉得该怎么量度这种变化？ 


7 = XOT 




计算离散概率分布的方差 


方差和概挛分布 


先回顾一下第3 章： 我们计算了一批数字的方差一我们算出每个数字的 
( X - jO 2 , 然后取所有计算结果的平均值。 


类似地，我们可以算出变量 X 的方差，但我们不求 （ X - p ) 2 的平均值，而是 
求 （ x - k ) 2 的期望。计算公式 如下： p & eOO 婕另 



〆 ■书巳 • 


这是 f ^ VarW = 

x 的方差绝简使记法. 


E(X • |1> 2 

\^二二 


只有一个 问题： 如何求出 ( x - h ) 2 的期望？ 


如何计箕 E ( X - M ) z ? 


求 E ( X - ti ) 2 的方法与求 E ( X ) 的方法非常相似。 


计算 E ( X ) 时： 取概率分布中的每一个数值，乘以其概率，然后将各个 
乘积相加。也就是使用下式进行 计算： 


E ( X ) = 2 xP(X = x ) 

计算 X 的方 差时： 计算每个数值 x 的 （ x - jjl ) 2 , 用所得结果乘以相应数值 
x 的发生概率，然后将各个结果相加。 


E(X 


取每 /个数值入 ，裏呶 
卜 H ) z ; 麟⑽系象 “ 1 

桐焱; c 鲶成 i 概率 


M ) 2 


x 


• M ) 2 P(X 


. &后拚所 

省象积桐 加- 


X) 


也就是说，你不是用 X 乘以其相应概率，而是用 （ X - JJL ) 2 乘以相应 X 


的发生概率。 
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善用期望 


让我们翼箕老虎机的方差 

让我们看看能否用上述方法计算老虎机的方差，为 
此，我们用每一个值减去取差的平方，然后乘以 
概率。提示一下， E ( X ) 或^等于-0.77。 z : 


老虎机概車提乐 

r ~ 


X 

-1 

4 

9 

14 

19 

P(X = x) 

0.977 

0.008 

0.008 

0.006 

0.001 


叙们在：20 4 茨彤得 


Var ( X ) = E(X - p ) 2 


e(X) = ~ 0 . 77 . 


(-1+0.77) 2 x 0.977 + (4+0.77) 2 x 0.008 + (9+0.77) 2 x 0.008 + (14+0.77) 2 x 0.006 + (19+0.77) 2 x 0.001 


(-0.23) 2 x 0.977 + 4.77 2 x 0.008 + 9.77 2 x 0.008 + 14.77 2 x 0.006 + 19.77 2 x 0.001 ^ 

(X-n) 2 xP(X=x) 

0.0516833 + 0.1820232 + 0.7636232 + 1.3089174 + 0.3908529 


= 2.6971 

这就是说，当收益期望为 -0.77 时，方差为2.6971。 




就像可以篝出方差一样，也可以篝出概率分布的标准差。 

概率分布的标准差与数据集的标准差作用相似，是一种量度数据 
与数据中心的期望距离的方法。 

像以前一样，标准差的计算方法是取方差的平方根，如下 所示： 


a =^Var(X) 


叙们可 " i 用和八 箾/傅 
^ 娩符考象赤标准差. 


这就是说，老虎机收益的标准差是 V 2.6971, 即 1.642, 这表示从平 
均情况看来，我们的每一局收益与期望收益- 0.77 之间的距离是 


1.642。 





你愿意老虎机的方差 高一些 还是低一些？为什么？ 
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世上没有傻问题 


世上 M 傻问题 


|»):这么说期望与均值极为相似, 
那么对于概率分布来说，有没有类似 
中位数或是众数之类的东西呢？ 

^ : 你可以算出最可能出现的 
概率，这就有点儿像众数，但一般 
不需要这么做。在研究概率分布的 
时候，统计师最感兴趣的测量值就 
是期望。 

1»): 期望是不是应该等于 X 能够 
取用的某个数值？ 

不一定。就像一个数据集 
的均值不一定等于这个数据集中的 
某个数据，一个概率分布的期望也 
不一定等于 X 能够取用的一个数值。 


1»):这里的方差和标准差和我们 
以前研究过的数值的方差和标准差 
是一样 的吗？ 

答： 是一样的，不过这一次研 
究的是概率分布。数据集的方差和 
标准差是量度数据与均值的距离的 
方法，而概率分布的方差和标准差 
是量度一些特定数值的概率的分散 
情况的方法。 

| o ) :我觉得 E(x- 很容易让人混 
淆，这个算式是不是等于求出 e ( x - m ) 
再求平方？ 

^ : 不对，这是两个不同的算 
式。 E ( X-(JL ) 2 表示先求所有结果 
的平方，再求 期望； 如果先求出 
E ( X -| jl ), 再将结果平方，就会得 
出截然不同的答案。 

从技术上说，你算的是 E (( X - fi ) 2 ), 
但通常不这么写。 


|»): 那么方差低的老虎机和方差 
高的老虎机有何区别？ 

^ : 方差高的老虎机表示你的 
整体收益变化大得多，整体上的赢 
钱数额更不可预期。 

一般说来，方差越小，每一局的平 
均收益就越接近期望值。老虎机的 
方差越大，整体收益的可靠性越低。 



重要 银计薰 

期望 


“玄量期望”计灰公式也 下: 
B(X) =2x? > (X=x) 


_重要雜计 t 

方差 

方差计真公式 也下： 


vnr(X) = 5(X- M ) 2 
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善用期望 



2. Va 「( X ) 是多少？ 
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练习解答 


斛著 


下面是随机变量 X 的概率 分布: 


X 

1 

2 

3 

4 

5 

P(X = x) 

0.1 

0.25 

0.35 

0.2 

0.1 


1. E ( X ) 是多少？ 

e ( x ) =2) xp ( x =;0 象扭办如’ 

= fxO.f + 2x0.25 + 3x0.35 + 4x0.2 + 5x0.1 
= 0.1 + 0.5 + 1.05 + 0.8 + 0.5 
= 2.95 


tr 柏 ㈣ 


2. Var ( X ) 是多少? 
v«r(x) = e(x-4) 

= 2)u-m) 2 p(x=x) 

= (1-2.95) 2 x0.1 + (2-2.95) 2 x0.Z5 + .(3-2.95) 2 x0.35 + (4-Z.95) 2 xO.Z + (5-2.95) 2 x0.7 
= (-1.95) 2 x0.1 4 - (-0.95) 2 x0.25 + (0.05) 2 x0.35 + (7.05) 2 x0.2 + (Z.05) 2 x0.1 
= 3.8025x0.1 + 0.9025x0.25 + 0.0025x0.35 + 7.7025x0.2 + 4.2025x0.7 
= 0.38025 + 0.225625 + 0.000875 4 - 0.2205 + 0.4Z0Z5 
= 1.2475 
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善用期望 



案件：不断变化的期望 



统计邦播放过许多大家喜闻乐见的智力竞赛节目，其中有一个节目叫 
做“明与暗”，规则是这 样的： 向参赛者出示几个盒子，每个盒子里 
装有不同数额的钱，参赛者必须选择一个盒子，但不能看盒子里面有 
什么。剩下的盒子会一个接一个打开，每打开一个盒子，参赛者都有 
机会进行 选择： 留下原先选择的盒子中的钱（不能看），或根 
据装在其余未打开的盒子里的钱的总额另得一份奖金。根据参 
赛者得到的奖金，统计邦海豹保护区亦会得到一笔捐款。 

的一位参赛者是一名业余统计师，他看出只要知道所有盒 
子的期望，就能增加胜算。他刚刚算完期望，制片人就来了。 


“再过三分钟你就该上场了”，制片人说，“我们改过所有盒子里的 
数额了，和原来相比，现在的金额差10美元就翻倍。” 


参赛者惊慌失措地瞪着制片人，难道他的全部计算都泡汤了吗？他 
不可能在三分钟以内从头算出期望。他该怎么办？ 


这位参赛者如何才能以前所未有的速度算出新的期望? 
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新概率分布 


肥蛋改？价码 

几分钟前，肥蛋改了老虎机的赌本和奖金，下面是 

新 价码： 从毐局7羡无涨剡每局 2 美毛 • 



氟金炎康氤金淤 5 谙. 


$ $ $ = $10 ° t 
I ^ (任意 if/?) =$75 

^ ^ ^ = $50 

QQQ =$ 25 


老虎机每一局（拉一次杆）的赌本现在从1美元变成了2美 
元，而赢金翻了5倍。要是赢了，就能捞更多钱了。 


0.977 


0.008 


0.008 


0.006 


0.001 







善用期望 



动动笔 




新概率的方差和期望是多少？这些数值与之前的收益分布期 
望 -0.77 和方差 2.6971 相比如何？ 


y 

•2 

23 

48 

73 

98 

P(Y = y) 

0.977 

0.008 

0.008 

0.006 

0.001 
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新概率的方差和期望是多少？这些数值与之前的收益分布期 
望 -0.77 和方差 2.6971 相比如何？ 


y 

-2 

23 

48 

73 

98 

P(Y = y) 

0.977 

0.008 

0.008 

0.006 

0.001 


6(y) = (-2) x 0.977 + 23 x 0.008 + 48 x 0.008 + 73 x 0.006 + 98 x 0.001 
=-7.954 + 0.184 + 0.384 + 0.438 + 0.098 
= -0.85 


动动笔解答 

r ^动笔 
I 解奢 


v«r(y) = e(y - n) z 

= 2(y _ p ) 2 p(y=y) 

=(-2 + 0.85) 2 x 0.977 + (23 + 0.85) 2 x0.008 4 - (48-h0.85) 2 x0.008 + (73+ 0.85) 2 x0.006 + 
(98-i-0.85) 2 x0.001 

= (-1.15) 2 x0.977 4 - (23.85) z x0.008 + (48.85) 2 x0.008 -f (73.85) 2 x0.006 + (98.85) z x0.001 
= 1.3225^0.977 -|- 568.8225x0.008 + Z386.3225x0.008 + 5453.82Z5x0.006 + 

9771.3225x0.001 

= 1.29208Z5 + 4.55058 + 19.09058 + 32.722935 4- 9.7713225 


= 67.4275 

期 f 梢徼下阵了一点儿， （ S 此从长期看束，我们每届可 f 賠 羡元： 方差增太，这表示从长期看束, 
我们唷可试在这台老虎机上赔更多蜣钱，俚确定蚀更小. 
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O 


新旧收益互有关联。 


每一局的赌本上涨到2美元，贏金则是原来的5倍。由于新旧收 
益之间存在关系，所以，也许它们的期望和方差也存在关系。 


让我们找出这种关系。 




善用期望 





现在是代数时间。你的任务是将 一些数 


字从奇妙池里捞出来，将它们放入 


计算式中的空白位置。每个数字 


只能用 一次， 但不需要把所有数 


字都用上。 目标： 根据老虎机的 


旧收益表达式得出新收益表达式。X 
代表旧收益， Y 代表新收益。 


X =(原收益)-(新赌本） 
=( 原收益)-_ 

(原收益)= — 

Y = 5 (原收益)-(新赌本) 
= 5 (............... + 

= 5 + 


注意：从池里捞出的每个 
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奇妙池解答 


眘炒港解奢 



现在是代数时间。你的任务是将一些数 
^字从奇妙池里捞出来，将它们放入 
I计算式中的空白位置。每个数字 
^只能用 一次， 但不需要把所有数 
^ 字都用上。 目标： 根据老虎机的 


旧收益表达式得出新收益表达式。X 


代表旧收益， Y 代表新收益。 


我们可将原收 
益表达式代入. 


X =(原收益)-(新赌本） 

=( 原收益卜…1 ^ ― 麟枝竣元. 

(原收益) = x + 1 —这个式3 •象 矛暮子 x 的展收益. 

原收益)-(新赌本） 

= 5 T X + 1 )-2 

= 5 X +5 - 2 


= 5 X + 3 r 

. 所彳丫 =5乂+3,这就是 X 与 

丫之同的确定矣系. 


注意：从池里捞出的每个 
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善用期望 


E ( X ) 乌 E ( Y ) 之间存在线性兵系 

我们发现，新收益与原收益可以通过 Y = 5 X + 3联系起来，其 
中， Y 为新收益， X 为原收益。现在我们要看看 E ( X ) 与 E ( Y ) 之 
间以及 Var ( X ) 与 Var ( Y ) 之间是否存在某种关系。 


如果存在某种关系，我们就能在肥蛋改价码时大大节省计算 
新期望和新方案的时间。只要知道新结果和原结果之间的关 
系，我们就能迅速算出新期望和新方差。 


^动动笔 



让我们看看 E(X) 与 E(Y) 的关系以及 Va 「 (X) 与 Var(Y) 的关系是 
否有某种固定模式。 


1. E(X) 等于 -0.77, E(Y) = -0.85, 5 x E(X) 是多少？ 5 x E(X) + 3是多少？结果与 E(Y) 有何关系？ 


2. Var(X) = 2.6971 , Var(Y) = 67.4275, 5xVa 「 (X) 是多少？ 52 x Va 「 (X) 是多少？结果与 Va 「 (Y) 有和关系？ 


3. 如何将这种关系推广至所有 Y = aX + b 的概率分布？ 
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动动笔解答 



\斛箸 


让我们看看 E(X) 与 E(Y) 的关系以及 Va 「 (X) 与 Va 「 (Y) 的关系是否 
有某种固定模式。 


E(X) 等于 -0.77, E(Y) = -0.85, 5 x E(X) 是多少？ 5 x E(X) + 3是多少？结果与 E (丫)有何关系？ 

5 X e(x) = - 3.85 


5 x S(X) + 3 


- 0.85 


e ( 丫 ）= 5 x e(x) + 3. 

2. Var(X) = 2.6971, Var(Y) = 67.4275, 5xVa 「 (X) 是多少？ 52 x Var(X) 是多少？结果与 Va 「 (Y) 有和关系？ 

5 x Vflr(X) = 13.4855 
5 2 x Vflr(X) = 67.4Z75 
Vflr(y) = 5 2 x var(x) 

3. 如何将这种关系推广至所有丫 = aX + b 的概率分布？ 
e(«x + b) = « e(x) + b 

Vflr(flX 4* b ) = « 2 Vflr(x) 


老虎机变狳 

你在前几页完成了哪些工作？ 

首先，你求出 X 的期望与方差，这里的 X 代表你在每一局中有 
望获得的收益。 

然后，你想知道肥蛋的价格变化会造成什么结果，但不想完 
全从头开始计算期望与方差，于是你算出新收益与原收益之 
间的关系，再利用这种关系计算新期望与新方差。 得出： 

E (5 X + 3) = 5 E ( X ) + 3 

Var (5 X + 3) = 5 2 Var ( X ) 



218 深入浅出统计学 







善用期望 


线性変狳的通用公式 

我们可以将以下公式推广至任意随机变量，若随机变量 


为 X : 


滟 f 彖•机&后加 b 


E(aX + b) = aE(X) + b 


Var(aX + b) = a 2 Var(X) 


取£!淤年方，象办 
嬈汸差 （忽铪 ^ 


这就是所谓的线性变换，因为 X 发生的是线性变化——即 
基础概率保持不变，但数值变为新值，其形 式为： aX+bc 


世上 M 傻问题 


( o ) : a 和 b 必须是常数吗？ 

^ : 是的，如果 a 和 b 是变量，那么以上结果不成立。 
|»): 方差中的 b 哪里去了？ 

^: 在概率分布中增加一个常数仅对期望有影响， 

对整个方差没有影响。 

在变量中增加一个常数不过是将概率分布移动一下，分 
布的形状依然不变。也就是说，期望以 b 为幅度进行偏 
移，但由于形状保持不变，所以方差也保持不变。 

|«| :我很惊奇，方差会乘以一个 a 2 , 这是为什么？ 

^: 变量乘以一个常数意味着所有基础数据都乘以 

该常数。 

在计算方差的过程中要计算各基础数据的平方。由于基 
础数据都乘以 a , 因此最终结果是方差乘以 a 2 。 


|»): 我必须记住如何做线性变换吗？这重要吗？ 

^ : 是的，很重要:=从长远看这能为你节省时间， 
不必教据一发生变化，你就得从头计算概率分布的期望 
和方差。相反，你可以将已经算得的期望和方差代入上 
式，从而得出新概率分布的期望和方差。 

懂得做线性变换还可以帮助你考场得意，首先，知道简 
便算法可以帮助你节约 时间； 另外，考卷上不一定会给 
出基础概率分布，你的已知条件可能是变量的期望.你 
可能必须根据最基本的信息对其进行变换。 

(») : 我从头到尾算出了期望和方差，结果却是错的， 

这是为什么？ 

^ : 你现在知道了吧，计算期望和方差是很容易出 
错的。如果按照常规算法，很容易不是这里错，就是那 
里错。 尽量使用统计简化算法，这样效果会好一些。 
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案例解答 


破案：不断变化的期望 

rtij 面那位参赛者如何才能以前所未有的速度算出新的期望？ 

参赛者惊慌失措地左顾右盼了一会儿，接着释然了——数值的 
变化毕竟不是什么大问题3 

参赛者已经花了一些时间算出所有盒子中的原有数值的期 
望，并由此获知有多少钱在向他招手。 

制片人已经告诉过他，新奖金比原奖金的2倍少10美元，也就是说， 

这是一个线性变换。如果用 X 代表原奖金，用 Y 代表新奖金，则数值变换形式 
为 ： Y = 2 X -10 o 

参赛者用 E (2 X -10) = 2 E ( X )-10 求岀 E ( Y ), 也就是说，只要将原期望翻倍, 
再减去10,就能求出新期望。 


5 外中 





/^-篥要_计糞 

Q 线性变换 

办系料 一个 间时遂 
靖麩官 H 和>0.则: 


g(ax + W = «s(x) + 

var(«X + W = W ( 乂 ) 


% 


要点 


■ 概率分布描述 了一个 给定变量的所有可能结果的 
概率。 

■ 期望即所期望的长期平均结果，以 EP <：) 或 m 表示， 
计算式为 E ( X ) = 2 xP ( X = x )_ 

■ X 的函数的期 望为： E ( f ( X )) = 2 f ( x ) P ( X = x ) 

_概率分布的方差算 式为： Var ( X ) - E(X - m ) 2 


当变量 X 按照 aX + b 的形式发生变 换 （ 其中 a 和 b 都是 
常数），则为线性变换，其方差和期望计算 式为： 

E(aX + b ) = aE ( X ) + b 

Va「(aX + b ) = a z Var ( X ) 


■ 


概率分布的标准差算 式为： ct = V Var ( X ) 
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善用期望 




使用线性变化和多玩几种赌博游戏有区別 

进行线性变换后，所有的概率都保持不变，但可能出现的数值发生变化——发生 
变换的是数值而非概率。这些可能数值的数目仍然不变。 

如果多玩几种其他游戏，则数值和概率都发生变化，就连可能数值的数目也会发 
生变化。这时不可能只对数值进行转化，而概率的计算会迅速变得错综复杂。 

让我们看一个简单的实例。假设你在玩一台非常简单的老虎机，概率分布为 X 。 



如果想在这台老虎机上玩两局，结果会如何呢？ 



构參掉珣农 
收基和楙率都不 

，兩扃 都嬴鲶 
话 jj = JO . 


W 代表雨爲 P(W = W) 0.81 0.18 0.01 

醏届鹼结票. 

这一次概率和数值都变了，那么我们该如何求出 


W 

-2 

4 

10 

P(W = w) 

0.81 

0.18 

0.01 
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认 识独立 观测值 


每一次拉秄为一个独立艰测値 


在赌博机上连玩多局赌局时，每一局称为一个事件，每一局 
的结果称为一个观测值。每一个观测值具有相同的期望和方 
差，但观测值互有差别，不可能每一局的收益都一样。 


我们需要用某种办法对不同赌局或观测值进行区分，如果用 
X 代表老虎机收益的概率分布，则把第一个观测值称为乂,，把 
第二个观测值称为 x 2 。 


每一屌赌屌称为一 T 
事件，每一局赌局的 
结岽梆为一 T 观澜值 



乂 1 和乂 2 都具有和 X —样的概率、可能值、期望和方差，也 
就是说，虽然它们是互不相干的观测值，并且结果也不同， 
但它们的概率分布相同。 



这就是我们的概率今讳鲶束房. 



X 

-1 

P(X = x) 

0.9 





组科-概丰 a 


o 



x i 

-1 

5 

P ( X , = x ,) 

0.9 

nm 



X 2 

-1 

5 

P ( X 2 = x 2 ) 

0.9 

0.1 


我们希望求出两局老虎机赌局的期望和方差，实际上就是 
要求 x 1+ x 2 & 期望和方差，让我们看一些快速 算法： 
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善用期望 


难测值速箕法 


让我们求出 x 1 + 乂 2 的期望和方差。 

期望 

首先算 E ( X , + x 2 ). 

E ( X , + X 2 ) = E ( X ,) + E ( X 2 ) 
= E ( X ) + E ( X ) 

= 2 E ( X ) 


^r 


由子 x , 和乂 2 鹼概隼兮唏都 

. 工⑽ . 



)^ + X 2 并不等于 
2 X 。 

x , + x 2 表示你在考虑 


X 的两个观测值， 2 X 
表示你有一个观测值，但其可能数 


值翻倍。 


换句话说，如果我们已知两个观测值的期望，则将 E ( X ) 乘以2即 
可。即，如果要在 E ( X ) = -0.77 的老虎机上玩两局，则相应期望 
为 -0.77 x 2 = -1.54 o 

我们可以将整个结论推广至多个观测值，若我们想求出 n 个观测 
值的期望，则可按下式 计算： 



办科 A 规雜 . 邮 
用 e ( x ) 象 , 


E(X, + X 2 + … X n > = nE(X) 


方差 


那么 Vad ' + X 2 ) 又如何计算呢？下面是计算 方法: 
VarCX , + X 2 ) = VarCX ^ + Var ( X 2 ) 

= Var ( X ) + Var ( X ) ^_ 

= 2 Var ( X ) 




也就是说，如果我们在 Var ( X ) = 2.6971 的老虎机上玩两局，则方差 
为 2.6971 x 2= 5.3942。 


我们可以将整个结论推广至任何数目的独立观测值。如果有 X 的 n 个 
独立观测值 ，则： 



霄 ( x ) 象 


Var(X, + X 2 + … X n ) = nVar(X) 


也就是说，为了求岀多个观测值的期望和方差，只要用观测值的数目乘 
以 E ( X ) 和 Var ( X ) 就行了。 
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世上没有傻问题 


1»):难道 E ( x ,+ x 2 ) 与 E(2X) 不一样？ 

答： 看似相似，其实不然，它们 
是两个概念。 

如果是 E (2 X ), 则表示你想将一个变 
量的基础数据翻倍，然后求其期望 
和方差。也就是说，变量只有一个， 
但数值变为两倍。 

如果是 ERi + XJ , 则表示你观测到了 
X 的两个独立结果，需要求其综合期 
望。例如，如果 X 代表一局赌局的概 


世上没有傻问题 

|«): 这么说\和\ 2 是_样的？ 

答： 它们的概率分布相同，但 
它们本身是不同的结果(或者说观测 
值）。例如，乂,可以指第1局，乂 2 指 
第2局，它们具有相同的概率分布， 
但实际结果可以不一样。 

f 5 ) :我发现新方差是 nVar(X), 而不 
是像线性变换的结果 一样是 n 2 Var(X) , 
这是为什么？ 


^ : 这一次我们有一系列的独 
立观测值，这些观测值都有相同的 
概率分布，于是我们可以将所有观 
测值的方差相加，求出整个方差， 
如果有 n 个独立观测值，则结果为 
nVar ( X )。 

在计算方差 Var ( nX ) 时，我们将基础 
数据乘以 n , 由于方差是通过取基础 
数据的平方得到的，因此所求方差 
为 n 2 Var ( X )。 


率分布，代表两局游戏的概 
率分布。 



重要银计 : g 

独交艰删值 


使闲下列公式计其其 方差： 
e(x, + x 2 + ... + x J = ke(x) 


Vflr(X, + X2 + ... + X».) = iA,Vdr(X) 


要点- 

■ 概率分布描述了一个给定随机变量的所有可 
能结果的概率。 

■ 一个随 机变量 X 的期望等于我们所期望的长期平 
均值，以 E ( X ) 或 M 表示。计算 式为： 



■ 标准差 a 是方差的平方根。 

■ 当一个随机变量从 X 变换为 aX + b 时，则为线性 
变换，其中 a 和 b 均为常数。其期望和方差计算 
式为： 


E ( X ) - IxP ( X = x ) 

■ _个随机变量 X 的方差计算 式为: 

Var ( X ) = E(X - m ) 2 


E(aX + b ) = aE ( X ) + b 
Var(aX + b ) = a 2 Var ( X ) 
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善用期望 





一杯越大杆咖喵的咖喵*: X 是# 

通杯咖 4的咖啡1。 



毎天多喝一杯咖喵 i X 是一杯咖啡 
的*。 



求兵10涔彩*的净收益； X 是兵一 
萍彩*的净收益》 



求彩*价梏上脒后每兵一涔彩栗 
的净收益； X 是兵一萍彩采的净 
收益。 



多 萇一只 母鸡，靠它 " FS 戗竿 
餐 i X 显某个兵种的鸿每®的产 
蛋1。 
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线性变化或独立观测值解决方案 


-銥； fe 独豆现濟值？- 

下面是一系列实例，假定已知每个 X 的概率分布，你的任务是说出 
可以通过哪种方法解决各个 问题： 是线性变换，还是独立观测值？ 


线性变换 独立难 测值 


一杯超大杯咖啡的咖畊 t ; X 是# 
通杯咖唏的咖 啡量。 

r -/ 


毎天多喝一杯咖畊： X 显一杯咖喵 
的*。 


，―/ 

求兵10张彩*的净收益： X 是买_ 



涔彩*的净收益。 


每奚一铱彩禀的收益与 
是杏购奚其他彩票无矣. 


求彩*价梏上芘后 毎兵一 涔彩求 
的净收 Si X 是兵一诔彩*的净收 

〆 — ' 

多买一 R 母鸿，靠它 "F 蛋戗罕 

/ 


勒票价栝改玄则期望收盖改 
但收盖概率禾重，函此 
可 ..i 通过钱性重換 斛答. 

餐 ； X 是某个兵种的鸿每®的产 
«4。 
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善用期望 



本地餐厅正在搞促销活动，每块糕饼售价 0.50 美元，并藏有一条神秘信息。大部分 
信息都不过是预祝购买者前程似锦，但 还有一 部分却表示可为晚餐打折。折扣2美元 
的概率是 0.1, 折扣5美元的概率是 0.07, 折扣10美元的概率是0.03。 

如果 X 为顾客的净收益，那么 X 的概率分布如何？ E ( X ) 和 Var ( X ) 等于多少？ 


餐厅决定将糕饼价格调高1美元，新的期望和方差是多少？ 
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练习解答 






本地餐厅正在搞促销活动，每块糕饼售价 0.50 美元，并 藏有一 条神秘信息。大部分 
信息都不过是预祝购买者前程似锦，但还有一部分却表示可为晚餐打折。折扣2美元 
的概率是0.1,折扣5美元的概率是 0.07, 折扣10美元的概率是0.03。 

如果 X 为顾客的净收益，那么 X 的概率分布如何？ E ( X ：) 和 Var ( X ) 等于多少？ 


下面是 X 鲶概車 兮讳： 



-0.5 

1.5 

4.5 

9.5 

P(x =x) 

0.8 

0.1 

0.07 

0.03 


BOO = (-0.5) xo . 8 + 7 .5 x 0.7 + 4.5 x 0.07 + 9.5x0.03 
= 一 0.4 + 0.15 + 0.315 + 0.285 
= 0.35 

vflr ( x ) = e(x - n ) 2 

= 1 ) 2 P ( X = x ) 

= (-0.5-0.35) 2 x0.8 + (1.5-0.35) 2 x0.1 + (4.5-0.35) 2 x 0.07 + (9.5-0.35) 2 x0.03 
= (-0.85) 2 x 0.8 + (7.75) 2 x 0.7 + (4.15) 2 x0.07 + (9.75) 2 x 0.03 
= 0.7225x0.8 + 7.3225 x 0.7 + 17.2225x0.07 + 83.7225^0.03 
= 0.578 + 0.13225 + 1 .205575 4 - Z.511675 
= 4.4275 

餐厅决定将糕饼价格调高1美元，新的期望和方差是多少？ 

餐厅将糕饼价掊调高了 0.5 羡元，即浙的净收益構型态 X -0.5: 

E ( X - 0.5) = e ( X ) - 0.5 
= 0.35 - 0.5 
= 一 0.75 


Vflr(X - 0.5) = Vflr(X) 
= 4.4275 
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善用期望 


新老虎机在等你 

肥蛋赌场买进一台新式老虎机，赌本更大，奖金更高。 
下面是这台新老虎机的概率 分布： 


^一4赌季比其他 
老虎机更高.孓边. 
看看 典 金吧! 


X 

-5 

395 

P(X = x) 

0.99 

0.01 


我们已经讲过单玩一台老虎机的期望和方差，也讲过在同一 
台老虎机上连玩几局的期望和方差，那么，要是在两台老虎 
机上玩两局呢？ 

在这种情况下，两台老虎机有两种各自独立、互不相同的 
概率分布： 



X 

-5 

395 

P(X = x) 

0.99 

0.01 


^- . 这4肥蛋赌场斯 

老虎机鲶劣前收盖. 


y 

-2 

23 

48 

73 

98 

P(Y = y) 

0.977 

0.008 

0.008 

0.006 

0.001 


我们该怎么求在两台老虎机上各玩一局的期望和方差呢? 


~^尿 象 婕名虎 
机 ㈣ 铯 收各- 















随机变量加减计算 

E(XJ ♦ E ( Y ) = E(X ♦ Y ) 

我们希望求出在每台老虎机上各玩一局的期望和方差，即希望求出 
E(X + Y ) 和 Var(X + Y ), 其中 X 和 Y 为代表两台老虎机的随机变量 ，X 
和 Y 相互独立。 


实现此目的的一个方法是算出 X + Y 的概率分布，然后计算期望和方差。 



y 







刹扭 心, 


我们豕是要你溥这个. 




x + y 







作 O 转系遇 7 


幸亏我们不必这么做。只要将 E ( X ) 和 E ( Y ) 相加，就能求出 
E(X + Y )。 


E(X + Y) = E(X) + E(Y) 


意义显而易见，例如，如果你玩两局，一局有望赢5美 
元，另一局有望贏10美元，则总体上有望贏5美元+10美 

元=15美元。 Var(X + Y) = Var(X) + Var(Y) 


类似地可以求出方差，只要将两个方差相加即可。对于所 
有独立随机变量来说，这些结论全都成立。 


E(X) 

4 


+ 


Var(X) 


E(Y) 

6 


㈠ 

Var(Y) 


E(X + Y) 






Var(X + Y) 



方差加法仅适用于 
独立随机变置 


如果 X 和 Y 相互不独 


立，则 Va 「( X + Y ) 不 
再等于 Var ( X ) + Var ( Y )。 
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善用期望 


E ( X )- E ( Y )* E ( X - Y ) 


随机变量不仅能相加，还能相减，这时不是 X + Y ， 而是 
X-Yo 


如果面对的是两个随机变量的差，就很容易求出期望 
E ( X - Y ), 只要用 E ( X ) 减去 E ( Y ) 即可。 


E(X - Y) = E(X)- E(Y) 


X-Y 的方差 Var ( X - Y ) 则不那么直观——为了求 Var ( X - Y ), 
需要将两个方差加起来。 


Var(X - Y) = Var(X) + Var(Y) 


要将方差相加, 


t 

小心峨/ 




这是因为变异性瓚大了。 

若我们用一个随机变量减另一个随机变量，概 
率分布的方差依然增大。 


胃 

:有违直观，因此很容易搞错。切 
I 记： 如果两个变量是独立变量，则 

： Var(X - Y ) = Var ( X ) + Var ( Y ) 


若格两个随机变 
置相减，则方差 
要相加。 

猛 一看， 这个算法 


E(X) 



Var(X) 


E(Y) 


㈠ 

Var(Y) 








个嚷耆收成法 


将两个相互独立的随机变量相减后的方差与将两个变量相 
加后的方差是一模一样的，变异性只会增加，不会减少。 


独立随 籾娈量 做蕨法运算，朽差 
掖然增大。 
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线性变量加减 


线性变狳也玎认傲加減运翼 

事情还没有结束，像随机变量加减运算一样，线性变换也可以做加减 
运算。 

假设出现这种 情况： 肥蛋赌场更改了两台老虎机（甚至只是其中一台老 
虎机）的赌本和奖金，我们最后需要做的是，算出整个概率分布，以便 
求出新的方差和期望。 

真走运，我们可以用另一种简便算法。 

假设 X 和 Y 老虎机的收益变了，使得 X 的收益为 aX , Y 的收益为 bY , 其中 
a 和 b 为任意数字。 

为了求出 aX 和 bY 这两个组合的期望和方差，可以使用以下简便 算法： 

aX 乌 bY 相加 

为了求出 aX + bY 的期望和方差，可使用下列 算式： 


X — ^ aX 


Y bY 



«和13可爸值意數宫. 


E(aX + bY) = aE(X) + bE(Y) 

Var(aX + bY) = a 2 Var(X) + b 2 Var(Y) 


如前所述，由于是线性变换，所以取数字的平方。 


这支饫性重換， 

俺 ..i 这笙阁年方 ■ 


aX 鸟 bY 相滅 

若将随机变量相减并计算 E ( aX - bY ) 和 Var ( aX - bY ) , 
可使用下列 算式： 


E(aX - bY) = aE(X) - bE(Y) 

Var(aX - bY) = a 2 Var(X) + b 2 Var(Y) 


如前所述，即使随机变量做减法，方差仍然做加法。 



切记，将方差相加 • 
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世上没布儍 问 ® 


善用期望 


(«) : 如果 X 和 Y 代表赌局，那么 
aX + bY 是表示 “ a 局 X 赌局 + b 局 Yp !# 局”吗？ 


R :我看不出什么时候会用到 
X - Y 。 这能达到什么目的呢？ 

^: 在你希望求出两个变量的差 
时， X-Y 的确十分有用。 E ( X - Y ) 有 
点儿像在说“你所期望的 X 与 Y 的差 
别’’，而 Var ( X - Y ) 则指出方差。 


( o ) :为什么把 X - Y 的方差加起 
来？你肯定应该做减法吧？ 


还有一种理解方法：计算方差时会 
取基本数值的平方， Var ( X + bY ) 等于 
Var ( X )+ b 2 Var ( Y ) ,如果 b = - l , 则 
得出 Var ( X - Y ), 由于 (_1) 2 =1, 因此 
Var ( X - Y ) = Var ( X ) + Var ( Y )。 


|»): 如果 X 和 Y 相互不独立，还能 
这么计算吗？ 

^ : 不行，只有在 X 和 Y 相互独立 
时才能这么做，如果要求相关的 X +Y 
的方差，则必须从头计算概率分布。 

1»): 似乎 x , + x 2 的规律也同样适用 
于 X + Y , 对吗？ 

^ : 对的，只要乂、丫、乂 1 及乂 2 相 
互独立就行。 


^ : aX + bY 其实是表示两个线性 
变换相加，换句话说， X 和 Y 的基础 
数据变了，这与独立观测值不一样， 
对于独立观测值来说，每一局都是一 
个独立观测值。 


答： 猛一看这有违直觉，不过, 
当你用一个变量减另一个变量时，其 
实变异性是增大的，因此方差也增 
大。变量相减的变异性与变量相加的 
变异性其实是一样的。 


要 点 

■ X 的独立观测值与 X 不同，每个观测值都具有相同的 
概率分布，但结果各不一样。 


Va「(X + Y ) = Var ( X ) + Var ( Y ) 
Va「(X - Y ) = Var ( X ) + Var ( Y ) 


■ 如果 XI , X 2, ...， Xn 是 X 的独立观测值 ，则: 

E ( X 1 + X 2 + ". + X n ) = nE ( X ) 

Var ( X 1 + X 2 + … X n ) = nVar ( X ) 

■ 如果 X 和 Y 是独立随机变量，贝 !!： 


■ XfPY 的线注变换的期望和方差用下列各式进行计算 
E(aX + bY ) = aE ( X ) + bE ( Y ) 

E(aX - bY ) = aE ( X ) - bE ( Y ) 

Var(aX + bY ) = a 2 Var ( X ) + b 2 Var ( Y ) 

Var(aX - bY ) = a 2 Var ( X ) + b 2 Va 「( Y ) 


E(X + Y ) = E ( X ) + E ( Y ) 
E(X - Y ) = E ( X ) - E (丫) 
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期望与方差练习 



下表中 有一些 期望和方差，请写出其计算公式或简便算法，必要时假定变量为独立变量。 


统计量 


E(aX + b) 


Va「(aX + b) 


简便算法或公式 






E(f(X)) 


Var(aX - bY) 




Var(X) 


E(aX- bY) 


E(X, + X 2 + X 3 : 


Var(X 1 + X 2 + X 3 ) 








Va「(aX - b) 
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善用期望 



某家餐厅备有两份菜单， 一份 是周末菜单， 一份 是平日菜单。每份菜单有四种定价，就餐者 
的消费概率分布 如下： 

平日 

周末 


你会期望谁给餐厅带来最大营 业额： 周末20位用餐者，还是平曰25位用餐者？ 
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练习解答 



下表中 有一些 期望和方差，请写出其计算公式或简便算法，必要时假定变量为独立变量。 


斛著 


统计量 


E(aX + b) 


Var(aX + b) 


简便算法或公式 



E(f(X)) 


EfWP(x = x) 


Va「(aX - bY) 


fl 2 Vflr(X) + b 2 v«r(y) 


Var(X) 


E(aX - bY) 


E(X, + X 2 + X 3 ) 


Var(X 1 + X 2 + X 3 ) 3v«r(x) 


(x- m ) 2 = e(x 2 ) 



Var(aX - b) 
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善用期望 



每一值用餐者是一个独立观测值，爸了亦出每一真用餐者淤用餐金额，我们用期 
f 乘 "1 该真用餐者淤麩看. 


25 值用餐者在年日用餐 ，则： 25> ce ( x ) = 25x16 = 400 

2 0值用餐老在周象用餐 ，则： 20 xe ( y ) = 20 X 20.75 = 415 

这说明，我们铽够期 f : 20值周末用餐者支付鲶餐费窩子25位早日用餐者支付鲶 

餐赍. 
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你当上了期望专家! 


& 3 I 



m 


通过学习本章你颇有斩获，你学会了 


用概率分布、期望、方差预测自己能 


在某台老虎机上贏多少钱。 


你还发现了如何用线性变换和独立观 
测值预测在收益结构发生变化时或在 
同一台老虎机上多次赌博时有望贏得1 


的奖金。 




4 ?- 










_ _ 

: 
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善用期望 



山姆有两家喜欢去的餐厅，餐厅 A —般比 餐厅 B 贵，但食物品质 一般好 得多。 

下面的两组概率分布描述了山姆在每家餐厅的消费意愿， 一般 说来，你觉得两家餐厅价格差 
别如何？差别的方差是多少？ 


餐厅 A 

餐厅 B 
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练习解答 



山姆有两家喜欢去的餐厅，餐厅 A —般比 餐厅 B 贵，但食物品质 一般好 得多。 

下面的两组概率分布描述了山姆在每家餐厅的消费意愿，一般情况下，你觉得两家餐厅价格 
差别如何？差别的方差是多少？ 

餐厅 A x 20 30 1 40 45 ~ 

P(X = x) 0.3 0.4 0.2 0.1 


餐厅 B 


让我们先其 X 和丫鲶期 f 和方差 . 


_y _ 

P(Y = y) 


20 

30 

40 

0.3 

0.4 

0.2 


10 

15 

18 

0.2 

0.6 

0.2 


6(x) = 20x0.3 + 30x0.4 H- 40x0.2 + 45x0.7 
= 6 + 72 + 8 + 4.5 
= 30.5 

V«r(X) = (20-30.5) z x0.3 + (30-30.5) 2 x0.4 + 

(40-30.5) 2 x0.2 + (45-30.5) 2 x0.1 
= (-10.5) z x0.3 -f (-0.5) 2 x0.4 + 9.5 2 x0.2 4 - 14.5 2 x0.1 
= 110.25^0.3 + 0.25x0.4 + 90.25x0.2 + 210.25^0.1 
= 33.075 + 0.1 H- 18.05 -f- 21.025 
= 72.25 


e(y) = 70x0.2 H- 15x0.6 + 18x0.2 
= 2 + 9 3.6 

= 1 斗 .6 

Vflr ( 丫 ） = (10-14.6) 2 xO.Z + (15-14.6) 2 X0.6 + 
(18-14.6) 2 x0.2 

= (-4.6) z x0.2 + 0.4 2 x0.6 + 3.4 2 x0.2 
= 21.16x0.2 + 0.16x0.6 + 11.56x0.2 
= 4.232 + 0.096 + 2.372 
= 6.64 


X 和丫的差可用搆型 x- 丫泉示 . 


eCx-y) = eCx) -e ( 丫） 

= 30.5 - 74.6 
= 75.9 


v«r(X •丫） = Vflr(X) + Vflr (丫） 
= 72.25 + 6.64 
= 78.89 
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6 緋列乌组含 


排序、排位 T 排 本 



看我一个个试过去，迟竿会 
找到汤拇纹身店鲶号码. 


顺序有时很重要。 

一一清点某些事物的所有可能排序方法耗时颇巨，可这却是计算某些 
概率必不可少的过程——麻烦就在这里。在本章中，我们将介绍推导 
出这类信息的简便方法，为你免除清点一切可能结果的烦恼。来吧, 
让我们看看如何计算概率。 
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进入赛道 

统计# 德 ft 杯马赛 

统计邦德比杯马赛是统计邦最重要的一项体育赛事，来自四面八方 
的骑师和他们品种各异的爱马将在这里一较高下，你可以对比赛结 
果下注。要是能押中每场比赛的前三名，大把钞票就到手了。 

开幕赛在新马之间进行，参加比赛的都是一些初次进军赛场的嫩 
马，因此，没有前期比赛的统计量用以预测马匹的表现。也就是 
说，你必须假定每一匹马都有相同的得胜几率，这可以归结为简 
单概率问题。 

当天的第一场比赛是三马赛。比赛即将开始，德比马场开始接受下 
注。你从肥蛋赌场贏了500美元，正好可以在德比马场花掉。只要 
能押中三匹马的最终排名，赔率可达7:1,即赌本翻7 倍： 可获 
3500美元。 


我们该下注吗？让我们先求出几个概率再做决定不迟。 


赔率耒示类金 
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彡马赛正在迸行 

第一场比赛在三匹马之间展开，十分简单直接。一心贏大钱的你 
需要预测马匹的最终排名，下面是参加比赛的三匹马。 



翠考 拉托 褶褥 
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动动笔解答 


^斛著 


比赛结果有几种可能 （ 假定没有平局 且每一 匹马都跑完比赛）？ 
押中正确结果的概率是多大？ 


比赛秸票嗜6种可铖: 


计算该赌局的期望收益。 


辈看，拉托，福福 
簞看，福福，拉托 
拉托，輩看，福福 
拉托，福福，辈看 


福福，箄看，拉托 
福福，拉托，眾看 

® 此.押中正确排名的概率忌 V 6 . 

押上 500 美无赌砵（赔率 7: 7) 后可 ..i 期 f 得刭妫收盖蜣概率今 讳忌: 


没错.你可4期 f 这一这铖 
收入彳 68 盖元， 俚遝嘀 V 6 鲶 
时候是马场在嬴.你遝觉得 
I 己很幸遠 吗？ 


王马赛 


X 

-500 

3,500 

P(x = x) 

0.833 

0.167 


e(X) = -500x0.833 + 3,500x0.167 
- 168 

毐也一扃这楫蜣比赛，我们可4期¥ 收入 M 8 盖无. 



王马赛？可铖存在这种比赛 
吗？太多數锖况下都是群马 


确实，大多数比赛的参赛马匹都不止三匹。 

我们需要找出一个便捷的方法，通过这个方法，无论参加比赛的马匹数目是 
多少，都能求出马匹的最终排名有多少种可能。 

求三匹马最终排名状况的方法十分简单明了，因为只有6种可能局面。现在 
的麻烦在于，参加比赛的马匹越多，逐个写出最终排名的难度越大，所花费 
的时间越多。 

让我们仔细观察参加比赛的三匹马的各种排名方式，看看是否有某种固定模 
式。为此我们可以一个一个地对名次进行考虑。 
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马儿们有几种穿越终点线的方式? 


o 


3种方式 


让我们先看第一名。 

肯定有一匹马会成为冠军，三匹马中的任意一匹 
都有此可能。也就是说，占据第一名位置的方式 
有三种。 




只痏一匹马可从率先 
穿较终立伖.^_参 
赛马匹中她仫意 一匪都 
唷可铋氟傳这个结票 • 


第二名是怎么个情况呢？ 

如果已经有一匹马跑完了比赛，那么还剩下两匹 
马，其中之一会成为第二名。即，占据第二名位 
置的方式有二种，这与跑第一名的马匹无关。 



2种方式 

已羟唷一 lE 马跑完 
了比赛.那么只剩 
下雨 g 马抢第二名. 


当有两匹马跑完比赛后，只剩下一个位置留给 
最后一 " P 5 马—第三名。 


这对我们计算所有可能出现的最终排名有何帮 
助呢？ 


只剩下^马还没 
唷绝完兮雅.函此 
留给它淤只 唷一个 
值置： 第三名. 


o 



1种方式 
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i 十髯排伎数目 

前面讲到，第一名有三种占据方式，每一种方式对应着两种第二名 
的占据方式，无论前两名由谁占据，最后一名都仅有一种占据方式。 
即，三个位置的占据方式 共计： 


第一名始占据 
方式省3种. 


第二名的占据方武續 2 种. 

__ 5^3 x 2 x 1 = 6 3 个位 置共痏 6 种占掂方式. 

第三名始占据 


方式唷7种. 

这表示，我们不用把具体排名情况列举出来就可以做出 结论： 这3匹 


马有6种排名方式。 


如果有 Wg 马哝？ 

我们已经讲过，3匹马共有 3 x 2 x 1 种排名方式，将这个算法推而广 
之，可以知道任意数目 n 的排名方式。即，如要算出 n 个独立对象的 
排名方式，可按下式进行 计算： 

nx(n-1)x(n-2)x-_.x3x2x1 

如此一来，不用一一列举每种可能的现象，也能算出 n 个独立对象 
的排名方式的确切数目。 

这种计算方式称为一个数的阶乘，其数学表达式是感叹号，例 
如，3的阶乘写作3!, n 的阶乘写作 n !, 读作 “ n 的阶乘”。 

因此，当我们写下 n !， 就表示“从大到小取 n 到1的所有数，并将这 
些数相乘”，即执行下列 计算： 

n! = n x (n - 1) x (n - 2) x — x 3 X 2 x 1 

许多计算器都将 n ! 作为一个函数，这是使用 n ! 的好处。例如，当要 
计算4个独立对象的排名方式的数目时，只需计算4!,即 4 x 3 x 2 x 
1 = 24 0 
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圆形緋忮 

前面讲到的计算规则有一个例外，那就是圆形排位。 

下面举个例子。假定你想让 4 匹马围成一圈，并要求出可能的排位 
方式的数目。现在让我们看看这种 情况： ，福的右边是拉托，左边 
是翠香，符合这个要求的排位方式共有 4 种，下面是其中两种。 


担托 丼他 



猛一看，这两种排位不一样，但其实呢，却是一样的。马与马的相对位 
置完全一样，唯一的区别是，第二幅图中的马儿们绕着圆圈动了一动。 
这就是说，马匹的某些排位方式实际上是完全一样的。 

这一类问题该怎么解决呢？ 


关键是把其中一匹马的位置固定下来，比如福福。只要福福站在某个 
位置上不动，就能计算其余 3 匹马的排位方式，这样就能避免重复计 
算，得出正确的结果。 


通常，如果有 II 个对象需要进行圆形排位，则可能的排位数目按下式 
进行 计算： 
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世上没有傻问题 


世上 M 傻问题 


|») : n ! 怎么读？ 

^ : 读作 “ n 的阶乘”。感叹号代 
表一种数学运算，和感情没有什么关系。 

f 5 ) :阶乘只在排位物体的时候有 
用吗？ 

^: 绝对不是这样，阶乘在其他 

数学分支中也能派上用场，例如微 
积分，总的说来，这是十分有用的 
数学简便算法，只要进行这类乘法 
运算，就能看到阶乘符号。 

阶乘符号的意思是“从大到小取 n 到 
1的所有数，并将这些数相乘”。 

|»): 如果 n 的数值是0呢？ 0的阶 

乘怎么求？ 

^ : 0!为1,这个结果似乎有些 

奇怪，不过可以理解为 “0个对象只 
有1种排列方法”。 

|»): 要是想求负数的阶乘该怎么 

办？或者非整数的阶乘该怎么求？ 

^ : 阶乘仅针对正整数，因此无 

法求负数或非整数的阶乘。 

可以这样理解，对零碎对象进行排位 
并无意义，你为之排位的每一个对 
象都被认定为一个完整的对象，同 
时，对象个數不可能是负数„ 


1»):阶乘的计算结果会是奇数吗7 

答： 只有两种 情况： 在 n 为 0 或 n 
为 1 时， n ! = l 。 

除此以外，所有其他数的阶乘均为偶 
数，这是因为，只要 n 大于等于2,计 
算式中就必定会包含2这个数字，2 
与任何整数相乘结果均为偶数。所以 
说，只要 n 大于等于 2, n ! 均为偶数 3 

f 5 ) :计算大数的阶乘似乎是 一种折 
磨，如果要求10!,就必须将10个数字相 
乘 （10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1) , 
结果会是一个很大的数。有没有简单点 
的办法？ 

^: 有啊，许多科学计算器和绘图 

计算器都有阶乘按键（一般标有 n !) , 
你可以用这个按键进行计算。 


|»): 计算 n 个对象的圆形排位时， 
结果为 （ n -1 ) !。 如果把顺时针和逆 
时针排位视为同 一种情 况进行计算， 
结果如何？ 

^ : 如果这样的话，排位方式的 
数目贝， J 是 ( n - l )!/2。（ n -1) !既考 
虑了顺时针的情况，也考虑了逆时 
针的情况，因此是实际要计算的结 
果的两倍，除以2就解决问题了。 

|»): 如果将对象呈圆形排位，且 

考虑对象的绝对位置，结果如何？ 

^: 这样的话，排位方式的数目 
为 n !, 这正好等于 n 个对象的排位方 
式的数目。 



重要绑计 t 


棑位方式的计箕公式 

也票要氺^个对象淤可怵排值方式淤數0,则 
计真： 


1^1 = ^ X (ia, - 7 ) 


3 x 2 


也就是说，将从^到 i 鲶数穹金鄯相乘. 

也 票〜个 对象作圓形排值，则可怵鲶排值方式 
绝數目忌 （ ㈧ - 0!. 
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练5 


宝娜想给统计邦健身倶乐部打电话，但她的记性实在太差，她只知道电话号码由1、2、3、 
4、5、6、7组成，却忘记了顺序。她随机拨对号码的概率是多大？ 


有人提醒宝娜，电话号码的前3位是1、2、3的某种排位，后4位是4、5、6、7的某种 
排位。但她忘记了顺序，这时她拨对电话号码的概率有多大？ 

^~~ 提示： 这一攻需要对 
兩组數据作排佐. 


动笔 


统计邦德比马场要在本季末 组织一 次队列表演，马匹将沿着赛道排 
成圆形队列。马匹的确切顺序将随机抽取，你要是能猜中这个顺序, 
将会获 得一笔 奖金。 

你猜中马匹列队顺序并获得奖金的概率是多大？ 
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练习解答 




斛著 


宝娜想给统计邦健身倶乐部打电话，但她的记性实在太差，她只知道电话号码甶1、2、3、 
4、5、6、7组成，却忘记了顺序。她随机拨对号码的概率是多大？ 


嘀7个麩宮， (§^7, 种可铋蜣排值方式. 7! = 7 x 6 x 5 x 4 x 3 xzxJ = 5040. 


(2 此拔对号码蛛概率忌 V 5 0 4 0 = 0.0002 


有人提醒宝娜，电话号码的前3位是1、2、3的某个排位，后4位是4、5、6、7的某个排 
位。但她忘记了顺序，这时她拔对电话号码的概率有多大？ 

先将數官拆今糸兩组.第一组 3 个麩言( I , 2 , 3 ).其余忌第二徂⑷ 5 , 6 , 7 ).彳 I ■刭： 

?. 2, 3蜣排值方式蜣麩目^,3! = 3 X 2 X J = 6 

4. 5. 6. 7蜣排值方式鲶數目态4! =4 x 3 x 2 x J = 24 

基了啦出可铋的排值方式淤总麩.可将雨组排值结系鲶数目相乘， 得刭： 

可铖螓排位方式蜣总數 3 ! x4 ! = 6 ^ 24 = )44 

(§ 此，拔对号码蟋概車基 V 7 4 4 = 0.00 69 


动笔 
^斛著 


统计邦德比马场要在本季末组织一次队列表演，马匹将沿着赛道排 
成圆形队列。马匹的确切顺序将随机抽取，你要是能猜中这个顺序, 
将会获 得一笔 奖金。 

你猜中马匹列队顺序并获得奖金的概率是多大？ 


70匹马作 ® 形心列.即马匹唷9!种可铖姝顺冷. 
9! = 362880,即 R 列唷 36288 0种可铋蜣顺殍. 
猜对结票蜣概率基 V 9!. / L 夺著子 0. 
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筏#赛孖始3 

统计邦德比马场的与众不同之处 在于： 参加比赛的并不 
仅有普通马。在接下来的比赛中，3匹斑马将与3匹普通 
马同场竞技。 

在这一轮比赛中，占主导作用的是动物种类，而不是动物 
本身。也就是说，我们感兴趣的是哪一种动物得到了比赛 
的哪一种名次。现在 请问： 按照动物种类进行排名的话， 
共有几种排列方式？ 

德比马场设立了特别 赌局： 只要你押中普通马和斑马的最 
终排名位置，就给你15:1的赔率。问题是，你应该赌一 
把吗？ 



- ^^动动膊- 

你会怎么解答这类问题呢？在以下空白处写下你的想法。 
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按种类排列 


按个体緋名鸟桉种类棑名不是一桫事 

如上所述，如果今天的花样赛中有3匹普通马和3匹斑马 
参赛，如何计算普通马和斑马有几种排名方式？ 




这很简单，嘀 6 匹马嘛，所，， i 唷 6 / 
种排名方式. 


这一次我们仅对动物种类感兴趣，对动物个体不感兴趣。 

前面我们仅讲过对独立对象(例如马匹)进行排名的方式及其数目，假 
如按照这种情况进行计算，我们可算出正确的结果是6!。 

可这一轮比赛并不是这么回事。我们不再关心哪一匹马或哪一匹斑 
马会排在哪个位置，而只关心哪一种类的马排在哪个位置。 

例如，对于3匹斑马在前、3匹普通马在后这种排位情况，我们并不 
想清点3匹普通马和3匹斑马的所有排名方式。到底是哪一匹斑马跑 
了第一无关紧要，知道跑第一的是斑马就足够了。 


o 



对子这种问越，我们夹法 
淤炎啷个劫物种矣排在啷 
个依而本矣心啷个劫 
物个钵排在啷个位罝 . 
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我们 t 要桉种类棑列动物 


6匹马会有6!种排名方式，但这个答案是假定我们想知道的是单匹普通马(或斑马) 
的所有可能排名情况。 


让我们先看斑马的情况，3匹斑马有3!种排名方式，而上述结果6!中包含这3!种排 
名情况，但是，由于我们不关心哪一匹斑马排在哪个位置，因此这些排名都是一 
样的。于是，为了避免重复计算，只需用总数除以3!就行了。 




我们将 3 S 铤马作 态一矣情 
况， ( S 此用擁列患軚除 


接下来看普通马的情况。3匹普通马有3!种排名方式，而我们先前算出的最终排名结果中 


包含这3!种排名情况，像斑马的计算方法一样，为了避免重复计算，我们只 需用最 终结果 


除以3!就行了。 




这一次祆们将 3 匹蜓马作 态/束 
普通觸排名料料 3 ! 
种，函此我们闲排名患軚除 M 3! . 


这意味着按照种类对6匹动物进行排名的数 目是： 

总共嘀 6 !种动 

物排名 ……~^ 6! 720 

/-5.3I3! 6x6 

. 但3压普通总基一矣， 720 

3 匪铤马也忌一矣.函此 = 

用患&除 ..1 这喽矣劫物嬈 .. 

= ZU 

排名軚 s . 

也就是说，正确押中不同种类动物的排名的概率是1/20。 
请翻到下一页，我们将更为详细地讲述这种情况。 






按类型排列的通用公式 


推导出用子重复排列的公式 

设想你需要清点 n 个对象的排位方式的总数目，再设想有 k 个对象是类似 
对象。 


为了求岀排位数目，先假定 n 个对象是独立对象并计算它们的排位数目， 
用结果除以 k 种对象（类似对象）的排位方式， 得到： 


总共嘀^个对象. . 


^ n! 
A k 1 




我们还能进一步推广这个公式。 

设想要对 n 个对象进行排位，其中有一类对象共计 k 个，另外还有一类对象共 
计你可以通过下式求出可能的排位方式的 数目： 


总共唷 IA ■个 对象. ^个对象淤排伖方式姽 ^ ® ,其中一矣省 j 

/个辦麟，另-矣私个矣仲对象. 

省-矣对象省 j 个，述 々 j ! k ! 

省另矣对象■个. 


通常，在计算包括重复对象在内的排位方式数目 
时，可用总排位方式数目 ( n !) 除以每一类类似对 
象的排位方式数目 ( j !, k ! 等等)。 



黨要银计 t 

桉类型排位 


也 票要卷八个对象挑值，其中包括第 


一矣对象个，第二矣对象 j 个，第 
三矣对象^个……则排值方式數目 


鲶计4 式忌: 


IA,! 


jlfelku !... 
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统计邦德比马场决定用自己的比赛进行实验，他们打算办 一场有 3匹普通马、2匹斑马和5 
匹骆驼参加的比赛，所有的动物得冠军的可能性都 一样。 


1. 如果我们对单个动物的情况感兴趣，那么有多少种排名方式？ 


2. 如果我们只对动物种类的排名感兴趣，那么有几种排名方式？ 


3. 如果每匹动物赢得冠军的 几率一 样大，那么5匹骆驼 连成一 片跑完全程的概率有多大？（假定我们关心的 
不是单个动物所占据的位置，而是每 一类动 物所占据的位置。） 
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练习解答 



斛奢 


统计邦德比马场决定用自己的比赛进行实验，他们打算办一场有3匹普通马、2匹斑马和5 
匹骆驼参加的比赛，所有的动物得冠军的可能性都一样。 


I . 如果我们对单个动物的情况感兴趣，那么有多少种排名方式？ 
唷70匹动物，函此 唷 70! = 3 , 628 , 8 00种排名方式. 


2. 如果我们只对动物种类的排名感兴趣，那么有几种排名方式？ 
嘀普通马3匹，蜓马2|£,骆驼 5 ffi . 


排列數目 


3,628,800 


^ —省70匹劫物. 

<：-我们将 3 匹马作感一真. 2 匹蜓马作 

感一类 • 骑艘也作矣一类 • 


3,628,800 


3. 如果每匹动物赢得冠军的 几率一 样大，那么5匹骆驼 连成一 片跑完全程的概率有多大？ （假 定我们关心的 
不是单个动物所占据的位置，而是每一类动物所占据的位置。） 

首先.让我们啦出 5 匹骆驼集中在一起皰完金葙蜣方式的麩目，忌此我们将 5 匹骆驼划归忌一个单一 
对象，确保它们说一行动.皂就是说.办票我们将一群骆驼摻入 3 匹 普 通马和 2 匹蜓马中，荬际上 
就需要对6个对象迸行排列. 

6! a -1群骆驼+ 3匹马+2匹蜓马. 

排列数0 =— 

32 我们把 3 匹普通马銮作一真真似对象，把2迟樹 

_ 720 马也省作一真真似 对象. 至子 5 匹骀驼，则不 

6x2 必除 “ i 5 !. (3 态我们把它们计感 7 个对象了. 


迖后， 态7啦出 " i 上馑况蜣皮生概率，我们只需要用骆驼这个整体跑完金程的方式鲶麩目除 .,1 所 
嘀劫物种真皰完金莪蜣全都可铋方式蜣數目，这在上面已经计其过了. 

函此，5匪骆驼整钵跑完金葙始概率态60/252 = 5/27. 
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世傻问题 

| w ) :在前面的练习中，为什么把5丨 句： 似乎多个不同对象的排位方1 句： 普通马、斑马和舰混在- 
匹骆驼当作一个对象？它们绝对是各式的数目与这些对象的分类方式有关。 

自独立的骆驼。 ^ 

答：正确。掌握计算排位方式 的等： 这是不可能的，不过嘛，这 
^:它们的确是各自独立的骆方法是一门技术，但还有很大一部里可是统计邦，统计邦德比马场可 
驼，但在前面的问题中，我们需要分取决于你的思维方式。 以自得其乐嘛。 

让所有的路轮成为-个总体，并; te 关键在于周密地思考实际要解决的 
这些掷 定在一起的路蛇当作一个对问题，还要大量实践。 

象进行处理。 


二十四马的 et 赛正在迸行 
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认识排列 


前三乎桕厲方式冇几种？ 

主赛即将开始，共有20匹马驰骋赛场，我们需要求出前三名的可能排名方式的 
数目，然后才能算出猜中正确排名的概率。 



和前面一样，我们可以先求出马匹占据前 3 名的方式有几种，然后作出解答。 ^ 20 ^ % 据第一名淤方 

让我们从第一名开始计算，共有20匹马，即占据第一名的方式有20种，当这个 

仿罟诚太坦舀制下 iQijca 太堆笛一女苗; 按箬哉 县 laucajtffi 笛二女 _ 19 ^ ■ 


在这场比赛中，我们对剩下的位置被哪匹马占据并不感兴趣，只有前3名才 
对我们有意义。也就是说，前3名的排列总 数是： 

20 x 19 x 18 = 6,840 ^---- 

于是，准确猜中前三甲正确排名的概率为1/6,840。 


Q 这正是正确答案，不过，也票马|£麩0增多，或者要排 
V 鲶名攻增多，那么针其就会重 得复染 起束. 

^ ^- - - - 〆 -- 

我们需要用一个更简炼的方法解决这类问睡。 

在这里我们只需要将三个数相乘，要是需要将更多的数相乘该怎么办？ 

我们需要总结出一个公式，以便求出从一个较大的马匹群体中抽出 
一定数目的马匹进行排名的排名方式总数。 
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何为排列 


讲到这里，我们如何用阶乘重新表示以上算式？ 


排名方式的数目为20 x 19 x 18,让我们重新推导一下，看看有何结果。 

20 x 19 x 18 x (17 x 16 x ... x 3 x 2 x 1) 
20 x 19 x 18 =- 


17! 




(17 x 16 x ... x 3 x 2 x 1) 
这就炎同一真式嬈阶乘表 示这. 


乘上后,式各 
铦票 遝支一 嵙. 


这是和前面一样的算式，不过现在用阶乘表示。 


从20个对象中取出3个对象并进行排位，所得的排位方式的数目有一个 
正式名称，叫做“排列数目”，如前所述，排列数目的计算方法 如下： 


20 ! 

(20-3)! 


我们前面得到的 
也是这个答案. 


2,432,902,008,176,640,000 

355,687,428,096,000 



一般说来，从 n 个对象中取出 ■■个 对象的排列数目即 n 个对象中的每一 
组对象 （ r 个）的可能排位方式数目，通常写作" X , 即： 


排列是指从一 T 较 
大 UT ) 对渌擗饨中 
取出一定数目 （r 
T ) 对渌逬行排序， 
杆得出排序 fiit 总 
数目。 


这是对象 总麩. 

np - ni 

⑽ ㈣ ， 1 r ( n ■ r ” 

对象换軚目. 


所以，若想知道从 n 个对象中取出 r 个对象进行排位的排位方式数目， 
排列算式是个关键。 



我从没遠# it 关子马排名鲶 
值何精精看. 啷几 區马会 
成惫前王甲，你禾会白平鲶 
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认识组合 


假 如马區 棑名无兵紧要 


前面已经讲过从20匹马中取3匹并进行排名的结果，也就是说，我们知道可以给出多少种 
准确排名。 


而这一次，我们不再想知道排列数目，而想知道前三匹马的组合数目——我们仍然需要 
知道前三名有多少种组合方式，但前三名的确切排名并不细究。 



我们不需要堆确知道 
前 3 匹马皰完比赛蜣先 
后顺冷，只需要知道 
前三名包括娜几匹马 
就足够了. 



我们该如何解决这类问题呢? 


目前，排列数目包括对前3匹马进行确切排名的情况，而3匹马的排名方式有3!种, 
因此我们用排列数目除以3!,所得结果即为选出占据前三名的马匹但忽略它们的 
确切排名的选择方式的数目。 

结 果为： 

20! 6,840 

3!17! 3! 

=1,140 


也就是说，选出前3名马匹并进行排名的排列方式有6,840种，但如果不介意排名， 
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何为组含 


我们前面曾经求出一种计算排列的通用方法，组合其实也有这样一种 
方法。 

一般说来，组合数目即为从 n 个对象中选取 r 个对象的选取方式的数目， 
这时不必知道所选对象的确切顺序。组合数目写作 即： 


这 是对象的总數 g 

n c 

这炎要计策换， 71 
对象淤麩 . 

那么排列与组合有何区别？ 



这一都兮杖去与排列的其注 相间. 


\ , 

办租合的时 保除, 一个就行了 


排列 

排列是指从一个群体中选取几个对象，在考虑这几 
个对象的顺序的情况下，求出这几个对象的选取方 
式的数目。在需要知道每个位置的确切占位情况时， 
这是一种比组合更明确的方法。 

拚到： 芴赇 疼有兴 

这造是各禾 

I 相间媳排列 • Y 


组含 

组合是指从一个群体中选取几个对象，在不考虑这几 
个对象的顺序的情况下，求出这几个对象的选取方式 
的数目。在不需要知道每个位置的确切占位情况时, 
组合是比排列更通用的算法，只要知道所选择的是哪 
几个对象就足够了。 

租令：疼无兴 
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组合访谈 



组含汸谈 

本周话睡： 

顧序重 要吗？ 


Head First ： 欢迎来到我们的节目，组合先生。 

组合： 谢谢您的邀请， Head First 。 

Head First : 让我们开门见山吧。很多人都注意到， 
你和排列十分相似，你对此有同感吗？ 

组合： 我知道人们为什么会这样想，因为我们处理 
的情况十分相似，我们都关系到从一个群体中选取 
一定数目的对象。话是这么说，不过我们的相似程 
度也就仅此而已吧。 

Head First ： 那么你们有什么不同之处呢？ 

组合 ：哦， 在初学者看来，我们的态度截然不同。 
排列对顺序很介意，他在选择对象时非常关心选取 
顺序。他不仅要挑选对象，还要给对象排个位。我 
是说，他真是的！ 

Head First : 这么说你不这么做？ 

组合： 我绝不！我相信排列的所作所为可谓鞠躬尽 
痒，但坦白说，生命苦短，我所关心的是，是否已 
经从某个群体中选出了对象，若已经选好，那就达 
到目的了。 

Head First : 所以你好过排列？ 

组合： 我不愿意说我们两个谁比谁好，好或不好要 
看具体情况。就拿演奏家打个比方吧…… 


Head First ： 演奏家？ 

组合： 是的，很多演奏家都有曲目表，你可以从中 
选择要演奏家演奏的曲目。 

Head First : 我想我明白你要说什么了…… 

组合： 这么说，排列和我都对曲目表上的曲目感兴 
趣，但感兴趣的方式不同。我只要知道曲目表中有 
哪些曲目就很开心了，而排列却想得更多。他不仅 
想知道曲目表中的曲目，还想知道曲目的演奏顺 
序。如果改变曲目顺序，组合不变，但排列就变 
了。 

Head First : 谈一谈你的计算方法吧，计算组合的方 
法和计算排列的方法相 似吗？ 

组合： 相似，但略有区别。计算排列的时候，先求 
n !, 接着除以 ( n - r )!。 我的算法很相似，但要再多 
除以一个 H , 通常这会让我变得更小，这是可以理 
解的，我就是比排列来得痛快。 

Head First : 通常会变得更小吗？ 

组合： 我换个说法吧，在相似基础数据下，排列永 
远不会比我小。 

Head First : 组合先生，谢谢您接受采访。 

组合： 我很乐意。 
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世上 M 傻问题 


我听说过“选取”这样的字 
眼，这是什么意思？ 

^ : 这是组合的另一个术语。 

的本意是“你有 n 个对象，选取 r 
个”，因此有时候也称为选择函数。 

1»):排列会小于组合吗？ 

^:基础数据相同的情况下绝对 
不会。计算组合要用排列结果再除 
以一个数值，因此结果肯定变小。 

当排列与组合相等时，也就是选取0 
个或1个对象时，结果最接近你所说 
的情况。 


1»): 什么是排列？什么是组合？ 
我又糊涂了。 

^: 排列指的是选取对象并关注 

这些对象的排位顺序，进而得出结 
果； 组合指的是选取对象但不关注这 
些对象的排位顺序，即可得出结果。 

|«): 我还是有些糊涂，如果要求 

从 n 个对象中选取 r 个对象的组合，是 
该写成还是 C n ? 

答： 写成记忆 窍门： 数字 
越大，位置越高。 

(») : 它有別的表示方法吗？我想 

我在什么地方看到过组合的表示方法, 
不过不是这个样子。 


f 5 ) :排列和组合是否的确十分 
重要？ 

^: 没错，尤其是组合，本书后 
文还多有涉及。需要的时候要记得 
用哦。 

1»): 计算排列和组合的情况似乎 
和计算类似对象的情况很相似，对吗？ 

^: 过程相似。在计算类似对象 

时，是用排位方式的总数目除以类 
似对象的分类数目。 

对于排列可以这样 理解： 你选取互 
不同类的所有对象进行计算，因此用 
n ! 除以 ( n - r )! ; 对于组合可以这样理 
解： 你选取的对象都是同类，所以 
要用排列的数目再除以 r !。 


^: 组合的表示方法有不少，我 
们用的是 n C ^, 但另外还有一种表示 
法 ，即： 



重要綈计 t 

排列 


也票从八个对象中逸取 r 个 
对象,则排列數 目爸： 

P = - 

(八一 r )! 


(?) 


组含 

■ fo 票从八个对象中选取 r 个对象，则组 
合數 目糸： 

IA ,! 

㈧ C =- 

r r ! ( iA ,- r )! 
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组合练习 




数据邦全明星篮球队即将参 加一场 比赛，在册队员12名， 同一时 间允许5名队员上场比赛。 




1. 同一时间上场比赛的队员有几种出场方式？ 


2. 教练指定了3名队员做投篮主力。如果这3名主力是随机选择的，那么3名主力在同 一时间 上场的概率有多大？ 
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现在该算扑克牌概率了，看看你怎么应付。 

练5 一副牌有52张， 一 手牌有5张， 拿一 手牌的方式有几种？ 


全部同花的10、丄 Q 、 K 、 AI 且成一个同花大顺。拿到这种扑克牌组合的概率是多少？ 用上一 题的答案帮忙解答。 


四张数字相同的牌组成一个“炸弹”，再加一张牌就成 一手。 拿到这种扑克牌组合的概率是多少？ 


五张花色相同的牌组成 一手同 花牌。拿同花牌的概率是多少？ 


第6章 排列与组合 265 



练习解答 


数据邦全明星篮球队即将参 加一场 比赛，在册队员12名，在同一时间允许5名队员上场比 

练习 赛。 

斛著 

1. 同 一时间 上场比赛的队员有几种出场方式？ 

在册队员唷 u 名，我们需要计其从其中桃选 5 名 h 员淤桃选方式的麩目.禾需要对桃选出束蛛 h 员 
迸行排冷， ® 此可.4用伹合进行计其. 


5!(J2-5)! 


2. 教练指定了3名队员做投篮主力。如果这3名主力是随机选择的，那么3名主力在同一时间上场的概率有多大？ 
让我们先 名至力 间时上砀姝方式吣數目. 

也票 3 名至 力间时上场，就表示遝剩下2个值置供其他 iK 员蜞朴.我们需要氺出从剌余9名扒员中选 
取2名 K 於蜞卄上述2个值置的组合數目. 


2!(9-2)! 


这就是说. 3 名產力同时上砀蜣概 車糸： 


36/792 = 1/2Z 
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m 


斛著 


现在该算扑克牌概率了，看看你怎么应付。 

一 副牌有52张，一手牌有5张，拿一手牌的方式有几种？ 

一副牌唷52振，我们需要从中选#5枨. 

52! 

52 C = -= 2 , 598,960 

5 47!5! 


全部同花的10、 J 、 Q 、 K 、 A 组成_个同花大顺。拿到这种扑克牌组合的概率是多少？用上一题的答案帮忙解答。 

每一种龙色出现这种伹合的蜻况嘀 7 种，总甚4种龙色.也就是说，拿到同龙太颀淤方式嘀4种. 

P (间龙太顺 ） =- 

2 , 598,960 

= 1 / 649,740 

= 0.0000015 


四张数字相同的牌组成一个“炸弹”，再加一张牌就成一手。拿到这种扑克牌组合的概率是多少？ 

让我们从“炸祥-着寺.总斿唷13种 可铖. 即徂成“炸掸”蜣方式唷73种，只要选虫一副"炸#”，就 
剩下 48 梂牌.也就是说，这掸一孚牌淤徂成方式蜣數 目糸： ?3 x 48 = 624. 

624 

P (炸秭 ） =- 

2 , 598,960 
= 1/4165 
= 0.00024 


五张花色相同的牌组成 一手同 花牌。拿同花牌的概率是多少？ 

爸了求 A 可铋蛛组合蜣麩 S . 先弟一養同龙牌选取方式昀數目.这个麩目态4,然后选馭这養龙色中蛛5 
袜牌.毐种龙色唷 H 採牌，子是所求组合數0 基： 

4xJ3! 

4 x ,3 C =- 

5 815! 

= 4 x 1287 = 5148 
5148 

P (同龙 ） =- 

2 , 598,960 

= 33/16660 

= 0.00198 
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拉托万岁! 


C ： 匕赛结東 

二十匹马的比赛已经结束，冠军拉托，翠香屈居 
第二，福福季军。如果你当初决定押这三匹马赢, 
那你就发了！ 



银计抻煨比 S 场 
本年 虞冠军 ： 
拉托 



翠寿 



%3^： 

棟棟 


在本章中，你学习了如何处理各种排名、排位和排列， 
以及如何在不一一列举各种可能性的情况下快速算出可 
能的排列、组合的数目。 

这些知识将大大提高你求概率和作统计的能力。请接着 
读下去，我们会继续指点你练就更强功力。 


268 深入浅出统计学 




7 7 L 何分布、 


二顼分布及泊柁分布 

^坚持离散 + 



计篝概串分布颇为费时。 

前面讲到如何计算和利用概率分布，不过，如果方法更简单 一些， 计算速度 更快一 
些，效果岂不更好？在本章中，我们将介绍一些特殊的概率分布，这些概率分布有 
着十分固定的模式。只要懂得这些模式并善加利用，就能以前所未有的速度计算概 
率、期望、方差。接着读吧，让我们一起来认识几何分布、二项分布及泊松分布。 
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小心树木! 



倒霉的 滑雪 者查德 

查德喜欢滑雪，但他是个事故大王，哪怕雪坡上只有孤零零的一 
棵树，他也准能撞上去。查德希望自己不要总是撞在树上，滚在 
雪里，他的保险费如今可是一笔大开销。 查德 


查德太概在这儿.看 
看一踣上这些毀掉的 
衬.就知道他第一趟 
清當是个什么祥儿. 


查德对自己在雪坡上的表现寄望 甚高： 他的自尊，他对雪上美女的 
成功追逐，他的保险，为此他愿意冒丢人现眼、断手断脚、保险大 
打折扣的风险学习新的滑雪技巧，但必须保证他试滑不到10次就能 
获得成功。 

查德不出事故顺利滑至坡底的概率是0.2,他打算不停尝试，直至大 
功告成。在取得第一次成功后，他将停止滑雪，高唱凯歌回小旅馆。 
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几何分布、二项分布及泊松分布 


动笔 


现在来练习练习你求概率的技术。查德在任 意一次 试滑中(假定每 
一次试滑都是独 立的彡 不出事故顺利抵达坡底的概率均为0.2。如 


查德可媢■析系'桡，在位何一 
次洧 耆中 遣遇蛛政倒禆级都 
禾会彩响他下一次的象现 . 



果需要试滑两次，概率如何？他试滑 一次或 两次就能成功滑至坡 


底的概率是多大？ 记住： 当他获得首次成功后，就打算歇手不干。 




提示： 你可铋 打真画 一標概 
車树，”4便让同 題直观 可视. 
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动动笔解答 


动笔 
\斛奢 


现在来练习练习你求概率的技术。查德在任意一次试滑中(假定每 
一 次试滑都是独立的)不出事故顺利抵达坡底的概率均为0.2。如 


果需要试滑两次，概率如何？他试滑一次或两次就能成功滑至坡 
底的概率是多大？ 记住： 当他获得首次成功后，就打算歇手不干。 

下面是一椹概率树，其中给出了前兩攻试洧的概率.唷了这喽就试真虫概率了. 



也票用 x 表示最 终漘到 斌我需要试洧淤攻數 ，则： 

PCx = ?) =p (第7攻试清成功） 

= 0.2 

PCX = 2) =P (第2攻试洧成功 fl 第7攻试淆失敗） 

= 0.2 x 0.8 
0.16 

p(x. 2 )=p(x=0 + pCx = 2 ) \ 由子这 _ 率似独 

= 0.2 + 0.76 立. （ g 此可” 4 相加- 

= 0.36 


272 深入浅出统计学 




几何分布、二项分布及泊松分布 


我们霜要求出查德的概率分布 

现在，你已经求岀了查德在雪坡上试滑不出3次就能成功的概率，不 
过，如果你需要了解他试滑不出10次(因为保险的原因)就成功的概率， 
那该怎么办？ 20次呢？ 100次呢？ 


相对于每一次都老老实实地从头开始计算概率，概率分布可能更方便。 
为此，我们需要指出查德最终到达坡底需试滑次数的每一种可能性， 
并算出相应概率。 



0 o 


後着.也票要真出每一种可铋 
攻數始概車淤话，我们这辈吝计 
么 剔淤事都别想平了. 


这样做有问题，因为可能次数无穷无尽。 

只要尚未试滑成功，查德就会不停地试下去。他可能要试1次，10 
次，100次……甚至1,000次。査德到底什么时候会获得首次成功？谁也 
不能确定。 



邠么你是希 f 我糸一蚩无穷无 
尽蜣东曲计其概車兮哞？你这是 
在丹虼笑吧？ 


即使可能次数无劳无尽，还是有办法求出它的概率分布的。 

这其实是一种特殊的概率分布，这种概率分布具有一些特殊属性，能够 
简化概率、数学期望，以及方差的计算。 

让我们看看如何处理。 
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查德的概率树 


达种概挛分布冇一种谲定模式 

让我们用变量 X 表示查德为了在雪坡上取得一次成功而需要 
经历的试滑次数。查德只需要成功一次即可，此后他将停止 
试滑。 


让我们先看前4次试滑，据此计算 X 的前4个数值的概率。然后, 
我们可以看看是否存在某种固定模式能帮助我们轻松地算出其 
余数值的概率。 


0.2 



第1次试滑 
成功 


0.8 


失败 


下面是 X 前4次的概率。 


p(X = 1) 支奎德 
在第1次试 it 时炎 
讲戒功淤樹•率. 

第2次试滑 


0.2 



p ( X = 3) 炎蚩德在築3 
次试洧时农讲成功谂 
_樣率，狎前 2 攻试冰大 

赦第3 次试泔 成功. 

第3 次试漘 队， 


0.2 


0.8 


失败 



成功 


第4次试滑 


0.8 



X 

P(X = x) 

1 

0.2 

2 

0.8 x 0.2 = 0.16 

3 

0.8 x 0.8 x 0.2 = 0.128 

4 

0.8 x 0.8 x 0.8 x 0.2 = 0.1024 




失败 




运意，每个概率都是 0.8 
紿幕与 0. 2 淤幕的乘积. 
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几何分布、二项分布及泊松分布 



下表用于填写 X 取不同数值时的相应概率，请填写表格，写出试滑次数为 x 时的概率，并指 
出每种情况下， 0.8 的幂和 0.2 的幂 (0.8 和 0.2 在 P(X = X：) 中出现的次数)分别是多少。 



r 是 x 的一个特定值.俚现在还 
孓告诉你到我是啷个值•你铋 
猜一猜 r 蝣相居概率是多少吗^ 


^这一太 块空白 炎留焓 你破竹蕈沩 • 
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练习解答 




解著 


下表用于填写 X 取不同数值时的相应概率，请填写表格，写出试滑次数为 x 时的概率，并指 
出每种情况下， 0.8 的幂和 0.2 的幂 (0.8 和 0.2 在 P(X = x) 中出现的次数)分别是多少。 


X 

P(X = x) 

0.8 的幕 

0.2 的幂 

1 

0.2 

0 

1 

2 

0.8 x 0.2 

1 

1 

3 

0.8 2 x 0.2 

2 

1 

4 

0.8 3 x 0.2 

3 

1 

5 

0.8 4 x 0.2 

4 

1 

r 

0.8 x 0.2 

r - 1 

1 


当 x = 4 时，查德先失敗3攻.第4攻成功. 

由子单攻试漘蟋成功概率忌 0. 2 , 失敗概率忌 0.8, (g 此 P(x = 4) 忌 0.8 X 0.8 X 0.8 X 0.2. 

省 x = 5 时.查德先夫敗 4 攻，第 5 攻成功.即 

P(x = 5) = 0.8 X 0.8 X 0.8 X 0.8 x 0.2. 

那么. P(X = r )| 多 少呢？ 若査德在第 r 攻试洧时成功.则青定已经先夫敗过 ( r -0 攻，子是 
P(X = r) = 0.8 X 0.8 X ... X 0.8 X 0.2, 即表达式中蜣 0.8 取 (r_ 7) 攻羃. 
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这说的是两码事。 


当写成 P ( X = x ) 的时候，表明 X 能取概率分布中的任何值。我们在上表中 
给出了 x 的不同数值，并算出了出现每种数值的概宰。 

当写成 P ( X = r ) 的时候， x 等于特定数值 r ， 我们要求的就是这个特定数 
值的发生概率。只不过，我们还没有指定这个特定数值 r 到底是多少， 
这是为了能得出通用的概率算式。 

差不多等于这 么说： x 可以取任何值，包括固定数值 r 。 



几何分布、二顼分布及泊松分布 


概率分布玎认用代数式表示 

如你所见，査德的滑雪试验有其特定模式。每一个概率都是 0.8 和 0.2 
的乘积，利用下式，你能迅速算出任意次数•■的 概率： 

P(X = r ) = 0.8 r l x 0.2 

即，如果要求 P(X = 100), 你不需要画出一棵硕大无比的概率树，也 
不用把每一次试滑的情形想得清清楚楚，只要这样算 就行： 

P(X = 100) = 0.8" X 0.2 


我们可以进一步总结这个公式。如果用 p 代表单次试滑的成功概率， 
则失败的概率为 i - p ， 我们将此概率称为<?,于是可以用下式计算任何 


具有这一性质的 概率: 


( r _ 1) 次失欧， 1 次成 
p(x = r) = ■ 功.在我们嬈例吝中 


p = 0.2 , C[ = 0.8 • 

这个公式叫做概率的几何分布。 



o 

0 


q 

^ . 

q 專子 1 系?代表成功 

概奉 . 咖代象欠敗 概率。 


- 世上没有®? 5 )® 


f 5 ) :总结这个公式有什么意义 
呢？这只是我们所计算的一个特别问 
题而已。 

^: 总结这个公式是为了用到 
其他类似问题上。如果我们能够总 
结出这类问题的结果，以后碰到类 
似情况时就能加快计算速度。 

f 5 ) :你说过，我们需要求出 P ( X = r ) 
的表达式， r 是什么？ 

^ : P ( X = r ) 表示 “X 等于数值 r 
的概率”，其中 r 是为了取得首次成 
功所需进行的试验次数。例如，如 
果想求出 P(X = 20), 那么就可以用 
20代替 r , 这样就能迅速求出概率。 


|»):为什么用字母 r 呢？为什么不 
用其他字母呢？ 

^ : 使用字母 r 便于将结果推广 
至任何特定数值，其实我们也可以 
用其他字母，不过常用的就是 r 。 

f 5 ) :如果可能出现的结果无穷无 
尽，我们如何求出概率分布？ 

^: 我们不用为了得出概率分 

布而——列出每一种可能结果，关 
键在于通过某种方式描述每一种可 
能结果，概率计算公式就是这样一 
种方式。 


(«) : 查德的滑雪技巧难道自始至 
终都不会提高吗？说每一次试滑的成 
功概率都是 0 . 2 , 这现实吗？ 

答： 你的想法有道理。不过在 
滑雪问题上，查德实在是非常倒 
霉，我们不得不假定他的技巧没有 
提高——也就是说，他滑雪成功的概 
率符合几何分布。 
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几何分布细细看 


几何分布的形状十分独特。 

当 r = l 时， P(X = r ) 达到最大值，随着 r 增大， P(X = r ) 逐 
渐下降。注意，取得成功的概率在第一次试验时最大, 
也就是说，任何几何分布的众数都永远是1,因为1是 
具有最大概率的数。. 

虽然看似有违直觉，但是，可能性最大的情况 却是： 
仅需尝试一次即可成功。 


这 




々、数不 




儿何穸冻 缈缈著 - 

我们说过，查德的滑雪壮举是几何分布的一个实例。几何分布包含以下条 
件： 

o 进行一系列相互独立的试验。 

o 每一次试验都既有成功的可能，也有失败的可能，且单次试验的成 
功概率相同。 

o 你主要感兴趣的是，为了取得第一次成功需要进行多少次试验。 

如果你所碰到求概率的情况满足这几个条件，那么就可以用几何分布的公 
式帮助你速战速决。这里有一个重要 提示： 我们用了 “成功”这个词表示 
我们感兴趣的事件成为事实，假如我们希望看到的事件具有负面含义，从 
统计学的角度看，这个负面事件仍然可算得是一个“成功”事件。 

让我们用变量 X 表示为了取得第一次成功所需进行的试验次数， B 卩，为了 
让我们感兴趣的事件发生而需要进行的试验次数。 

为了求出 X 取特定数值 I ■的概率，可以用下式进行快速 计算： 

P(X = r) = p q r_1 

其中 p 为成功概率， q = l - p 为失败概率。 g 卩，为了在第 r 次试验时取得成 
功，首先要失败 ( r -1) 次。 


xllxa 
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几何分布、二项分布及泊松分布 


几何分布对不等式同 桴有用 

像求解几何分布的准确概率一样，对于涉及不等式的概率，也有一种简便 
的求解方法。 

让我们从 P(x > r ) 讲起。 

P(X > r ) 指的是为了取得第一次成功需要试验 i •次以上的概率。为了让需要 
进行的试验次数大于 r , 意味着前 r 次试验必须以失畋告终。也就是说，将 
失败概率乘上 r 次就是所求的概率。 , 


失败概率乘上 r 次就是所求的概率。 M 難彳祕功_试验攻財'和， ㈣ 先七次失敗. 

P(X > r ) = q r ^ A 

这个你 ㈣ 二， 

需要痛切妙 

我们可以利用这个公式求出 P ( Xsr ), 即为了取得一次成功而需要尝试 I ■次只要知道试臉攻數必领 ' 
或 r 次的以下概率。 

如果将 P ( Xsr ) 和 P(X > r ) 相加，结果必为1, 即： 


P(X s r ) + P(X > r ) = 1 


P(X s r ) = 1 - P(X > r ) 


广 这 ㈣ 奸 (以狀邮> 枝誠对立 
^ 祕況. P ( x^rt = ^ p(x>r)o 


由此 得出： 


/ 从上式可知， P(x > r ) =< 

P(X ^ r ) = 1 一 q 1 " 子炎我们用 <代替？(乂 > o , 得 出 这个公 式- 


如果一个变量 x 的概率符合几何分布，且单次试验的成功概率为 p ， 则可 
写作： A ^ Ofl i 


X ~ Geo ( p ) 


这个简明表达武嫉意思是‘ X 符合几 
何今邡，其中戒功概奉备 P . 


我已经鼻音脸胂了！你 
觉得我还要蚩试几攻访铋 
播到威呀? 




几何期望 


几何分布的期望模式 

前面已经求岀查德为了成功滑到坡底而需要试滑的次数，但如果 
想求期望和方差呢？知道期望用处很多，例如，在数学期望已知 
的情况下，就可以得出查德在成功之前试滑次数的期望值。 

还记得本书前面部分是如何求期望的吗？ E ( X ) 可以通过 SxP ( X = x ) 
进行计算。这个例子有无穷多个概率。不过.我们可以先算算前 
面几个数值，看看是否存在某种固定模式。 


提示 一下， 期望就炎 你期望得刊 
鲶半鈞值.省点儿像垧值，禾过 
支概车今讳的鈎值. 

方差则支对偏差的看度. 


下面是 x 的前几个数值，其中 X ~ Geo (0.2) 


X 

P(X = x) 

xP(X = x) 

xP(X ^ x) 

1 

0.2 

0.2 

0.2 

2 

0.8 x 0.2 = 0.16 

0.32 

0.52 

3 

0.8 2 x 0.2 = 0.128 

0.384 

0.904 

4 

0.8 3 x 0.2 = 0.1024 

0.4096 

1.3136 

5 

0.8 4 x 0.2 = 0.08192 

0.4096 

1.7232 

6 

0.8 5 x 0.2 = 0.065536 

0.393216 

2.116416 

7 

0.8 6 x 0.2 = 0.0524288 

0.3670016 

2.4834176 

8 

0.8 7 x 0.2 = 0.04194304 

0.33554432 

2.81894608 


这支 xpCX = x ) 


能看出 xP(X = x ) 的特点吗？ 

xP ( X = x ) 的数值一开始很小，接着越变越大，直到 x = 5。 当 x 大于5时，数值 
又开始减小，并且随着 x 的变大而继续减小。 X 越来越大， xP ( X = x ) 越来越小， 
直到几乎不能使累计总和发生变化。 

如果将 xP(X = x ) 的累计总和画成图形，以上情况会看得更加 清楚： 
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几何分布、二项分布及泊松分布 


期望是 1 /p 

将 xP(X = x ) 的累计总和画成图形后，可以看出，随着 x 变大，累计总和越来越 
接近一个特定数值： 5。实际上，经过无穷多次试验后， xP(X = x ) 的累计总计 
正是等于5。 即： 


你炎说五攻之吻 
我就唷 f 成功？ 
禾4坏啊！ 


E ( X ) = 5 

上式的意义很 直观： 单次试验的成功概率为0.2,可以理解为5次尝试中有一次 
尝试趋向于成功，因此我们可以期望查德尝试5次即获成功。 

以上情况可以推而广之至任意数值 p 。 如果 X ~ Geo ( p ), 则： 

期 f 鲁子1除 ,•( 成功橄车 

E(X> 

我们不仅能求出几何分布的期望，还能求出方差。 



%^动笔 



让我们看看是不是能用求期望的同样方式求出几何分布的方差 
表达式。填写下表，有何发现？ 


X 

P(X = x) 

x 2 P(X = x) 

x 2 P(X ^ x) 

1 

0.2 



2 

0.8 x 0.2 = 0.16 



3 

0.8 2 x 0.2 = 0.128 



4 

0.8 3 x 0.2 = 0.1024 



5 

0.8 4 x 0.2 = 0.08192 



6 

0.8 5 x 0.2 = 0.065536 



7 

0.8 6 x 0.2 = 0.0524288 



8 

0.8 7 x 0.2 = 0.04194304 



9 

0.8 8 x 0.2 = 0.033554432 



10 

0.8 9 x 0.2 = 0.0268435456 




^-记彳 i : 方差蛛竹其方 
注炎 eOd-PCx)- 
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让我们看看是不是能用求期望的同样方式求出几何分布的方差 
表达式。填写下表，有何发现？ 


X 

P(X = x) 

x 2 P(X = x) 

x 2 P(X < x) 

1 

0.2 

0.2 

0.2 

2 

0.8 x 0.2 = 0.16 

0.64 

0.84 

3 

0.8 2 x 0.2 = 0.128 

7.752 

1.992 

4 

0.8 3 x 0.2 = 0.1024 

1.6384 

3.6304 

5 

0.8 4 x 0.2 = 0.08192 

2.048 

5.6784 

6 

0.8 5 x 0.2 = 0.065536 

Z .359296 

8.037696 

7 

0.8 6 x 0.2 = 0.0524288 

Z . 569011 Z 

10.6067072 

8 

0.8 7 x 0.2 = 0.04194304 

Z .68435456 

13.29106176 

9 

0.8 8 x 0.2 = 0.033554432 

Z . 71790899 Z 

16.00897075 

10 

0.8 9 x 0.2 = 0.0268435456 

2.68435456 

18.69332531 


这一攻. Wp(X = x ) 冬断增加.直到 x 达 iilio . 当 x 达刭70之后， ； c ^ p(x = ；0 再攻丹始下陣. 


动动笔解答 

\解箸 




正是如此。 


x 2 P ( X = x ) 越来越大，直到达到一个特定值，然后又开始减小，最终变得非常接 


近0。 






282 深入浅出统计学 


x 




几何分布、二项分布及泊松分布 


求当前分布的方差 

以上分析如何帮助我们求出查德成功滑到坡底需要试滑的次数的方差？ 
通过下式可算出概率分布的 方差： 

Var ( X ) = E ( X 2 ) - E 2 ( X ) 

即，算出 2： x 2 P(X = x), 减掉 E ( X ) 的平方，以 x 为横轴画出所得结果的图 
形，这时可以看出 Var ( X ) 的模 式是： 随着 X 上升而上升。下面是 x 2 P(Xs 
x ) - E 2 ( X ) 的图形。 



随着 x 变大， x 2 P ( Xsx )- E 2 ( X ) 越来越接近一个特定数值，这里是20。 
和讨论数学期望的时候一样，方差的规律归结如下。如果 X ~ Geo ( p ), 则 

Var(X) = 
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几何分布速查表 


几何分布简蜊指南 

下面是有关几何分布的简明总结，你可能用 得上： 

何时使用几何分布？ 

进行多次相互独立的试验时可使用几何分布，每一次试验都存在成功或失败的可能，而你感兴趣的是为了 
取得第一次成功需要试验多少次。 

如何 it 箕概率？ 

可使用以下方便易用的公式。 P 为单次试验的成功概率， q = l - p , X 是为了取得第一次成功而需要试验的次 
数.这时我们说 X ~ Geo ( p )。 

^,P(X = r) = pq - 1 

在第 r 攻试验时取得 
第一次成功的概率. 

如何计箕方差和期望？ 

公式 如下： 

E(X) = 1/p Var(X) = q/p 2 


P(X > r) = q r 

需要试验 r 攻上豸铖取 
得第一攻成功鲶櫬率. 


P(X < r) = 1 - q r 

T 

需要试验 r 次或禾到 r 攻即可 
取得第一玫成功鹼概率- 


世上 M 傻问题 


|»):这些公式可靠吗？任何时候 
都能用来求概率和期望吗？ 

^ :只要是几何分布，就可以 
用这些速算公式，因为这些公式正 
是针对几何分布的简便算法。如果 
所处理的问题不符合几何分布模型， 
那么不要用这些简便算法。 

别忘了，几何分布的应用条 件是： 
进行多次相互独立的试验 （ 因此每 
次试验的概率保持不变），每一次 
试验都存在失败或成功的可能性， 
而你感兴趣的是：为了取得第一次 
成功需要进行多少次试验。 


I ®):如果是其他情况呢？例如试 
验次数一定，要求成功次数呢？ 

^:不能使用几何分布，你说 
的情况不符合几何分布的模型。不 
过别担心，会有其他方法的。 

(°): 我要把这些速算法都学会吗？ 

^ : 如果你要处理几何分布问 
题，知道这些公式会大大节省你的 
时间； 如果你是为了参加统计学考 
试，那么看看考试大纲是否要求学 
会这些内容。 


1»):为什么几何分布用到 p 和 q ? 

: p 代表英文单词 “ probabi - 

lity ” ， 即“概率”，在几何分布中， 
代表的是单次试验的成功概率。 q 在 
统计学中往往代表 1-P, 也就是 p ’。 
本章以及本书后文将会大量出现这些 
字母。 
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几何分布、二项分布及泊松分布 


化身淆售考 



另—位请售考> 出竟外 if 利清至 
埗底的襖卑龙0.4。侪的任旁長 
傢黎令己是适位清售考，箕出妒 
r 惟况 r 的摒孪。 


1 .第一 次滑雪失败，第二次滑雪成功的概率。 


2. 第4次或不足4次就滑雪成功的概率。 


3. 4次以上才能获得成功的概率。 


4. 你所期望的为了获得成功而需要试滑的次数。 


5. 试滑次数的方差。 
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化身滑雪者解答 


化身淆售考斛考 

另—位清 售考; ^出意外順利淆至 
埗底的襖卑; &0. 4。你的任旁丧 
假装乍己龙达位请售考，算出妒 
r 犢况 t 的根卑 。 


1 . 第一 次滑雪失败，第二次滑雪成功的概率。 

P(X = 2) = p x ^ 

= 0.4 x 0.6 
= 0.24 

2. 第4次或不足4次就滑雪成功的概率。 

P(X^4) = 7 — 气 4 
= 1 - 0 . 6 4 
= 1 - 0.1296 
= 0.8704 

3. 需要滑雪4次以上才能获得成功的概率。 

或者可4这祥 求： 

P ( X > 4) = 1 - p ( x <4) 
= 1 - 0.S704 = 0.1296 

4. 你所期望的为了获得成功而需要试滑的次数。 
e ( x ) = i/f 

= 1/0 A 


P(X > 4) 


0.6 4 
0.1296 





5. 试滑次数的方差。 
Vflr ( x ) =气 / p 2 

= 0.6/0 A 1 
= 0 . 6 / 0.16 
= 3.75 


让我们使用 X ~ (°- 4 )进行 

斛答，其中 X 基这位 凊雪者 
态1■顺利洧至璉威而需要经 
易蛛试清攻麩. 
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几何分布、 二顼分 布及泊松分布 



0 



你3经掌狻了几何分布 

多亏你懂得几何分布这门技术，查德不仅知道自己在试滑多少次之 
后可能成功滑到坡底的概率，还能知道他能够期望自己滑多少次就 
获得成功，以及存在多大变数。 

只要试滑 5 次就能成功滑至坡底，方差为 20, 这样的期望让他倍增自 
信——他不用伤痕累累就能让那些美女刮目相看了。 


继续前进 



女士伯，先生伯： 
怒我打断，赛鸷观 
聲银计邦熱 D 苹力 
游欢节梦： 

转特赢赢暴/ 
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今天我们可基您准备 了禾少 难題，现在丹枱！第一轮 3 个 
间題，毐个冏题省4个备选答案，您可4现在就_着鼓励类 
离砀.也可4选择继续，击敗对净迸入下一轮后，您就离 
耗犄近了一岁.第 一轮： “共子我”.祝您胳遠/ 


动笔 


下面是第 一轮的 提问，都是关于游戏主持人 
的问题。请在正确答案旁边打勾。 



世上没布儍问题 


|»):讲到一半来个智力游戏干什么？还是接着讨论概 |«):我不知道这些问题的答案，怎么办？ 

率分布吧。 

^: 不知道答案可以随机答嘛，好好猜吧，有可能 

^: 还是在讨论着。智力游戏是另一种概率分布的得大奖呢。 

理想案例，读下去你就会明白的。 


290 深入浅出统计学 












几何分布、二项分布及泊松分布 


玩 T 去，还是转身走？ 


你不太可能对游戏主持人那么了解，所以这些问题应该是答不上来的。所 
以，让我们看看，如果随机回答问题，是否能求出答对的题数的概率分布， 
这会帮助你决定是玩下去还是转身走。 


这是 3 个问题的概率树。 


贿/ 





贿 J 


洵拯2 

正确 



0.25 


0.25 



0.25 


0.25 

〈 


这类问题的概率是多大？可以看出什么规律？用 X 代表答对的 
题数，共3题。 
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动笔 
解著 


这类问题的概率是多大？可以看出哪种模式？用 X 代表答对的 
题数，共3题。 


m 



rsmnmm 

■ 

0.75 3 = .422 



■ 




m 

3 x 0.75 x 0.Z5 2 = .141 



■ 


mmmm 

BBHHM 1 


答对 一題始 锖况 

嘴 3 种，每一种 茄魅/ 
请况妫概车均易 
0.752 x 0.25 


0.25 


贿 J 

正确 


0.25 










几何分布、二项分布及泊松分布 


維广到求多个问题的槪挛 

前面讲到了 X 的概率分布， X 为答对的题数，总共 3 题。 

与几何分布一样，这里的概率似乎也有某种模式。每一种概率都含有 
0.75 和 0.25 的幂，随着 x 增大， 0.75 的幂减小，而 0.25 的幂增大。 

一般， P(X = r) 如下 计算： 


P(X = r) 




^ 是答对的題麩. 


T 

这是什么 


每道題鲶答对概率 

x 0.25 r x 0.75 

1 




毐逮题的答错概車. 


即，为了求出答对 I •题的概率，可算出 0.25% 乘以 0.75 3 ' 然后将以上结 
果乘以某个数值。这个数值是多少呢？ 

紱少的数字是哪一个？ 

对于每一种概率，我们需要答对一定数目的问题，而答对一定数目的问 
题的方式不止一种。例如，总共 3 题，答对其中任意一题的情况有 3 种。 

还可以这样 理解： 存在 3 种不同的组合。 ^ 

橥 6 聋介铭？这种惰況， 

提醒 一下： 组合 n Cr 即从 n 个对象中选取 r 个对象的选取方式数目(不需^^一 
知道确切的选取顺序)。这正是我们现在碰到的情况，我们需要从 3 个问 
题中选取 r 个答对的问题。 

即， 3 题中答对 r 题的概率可以这样 计算： 

P(X = r) = 3 C r x 0_25 r x 0.75 3 r 

因此，根据这个公式，答对1题的概 率为： 

P(X = r) = 3 C, x 0.25 x 0.75 3 ' 1 

= 3!/(3-l)! x 0.25 x 0.5625 

= 6/2 x 0.0625 x 0.75 

=0.422 兮 - 这和上一 S 用 ( S 表篇 

出来的结票一 #. 



A : 红色 
0 C : 绿色 














几何分布、二项分布及泊松分布 


“鋅犄嬴嬴嬴”第 二轮： 僅我多一些.这一轮唷5个 
间题.每个间题唷 4 个备选答案.要继读吗？ 


下面是第二轮的提问，都是关于游戏主持人的问题。 
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迸一步推导概 挛篝式 


前面讲过，答对3个问题中的 r 个问题的概 率是： 

P(X = r) = 3 C r x 0_25 r x 0.75 3 r 

其中， 0.25 为每道题的答对概率， 0.75 为每道题的答错概率。 

第二轮“转椅贏贏贏”有5个问题，而不是3个。我们就不重新计算5个 
问题的解法了——让我们求出 n 个问题的解法，这样就能用同一个公式 
解决每一轮“转椅贏赢贏”的问题。 

那么用哪个公式计算答对 n 个问题中的 r 个问题的概率呢？ 请看： 


P(X = r) = "C r x 0.25 r x 0.75" 




o 


没错，可以进行归纳。 

设想每道题的答对概率是 p , 而每道题的答错概率是 l - p , 也就是 q 。 
答对 n 个问题中的 r 个问题的概 率为： 

P(X = r) = n C r x p r x q n - r 

这类问题称为二项分布，让我们仔细看看 3 
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几何分布、二项分布及泊松分布 





X ~ B(n, P) 

根据 n 与 p 的不同数值，二项分布的形状会发生变化 ， p 
越接近0.5，图形越对称。一般情况下，当 p 小于 0.5 时， 
图形向右 偏斜； 当 p 大于 0.5 时，图形向左偏斜。 


猜测“转椅贏贏贏”各种问题的答案是二项分布的一个实例，二项 
分布包括下列 条件： 


o 

o 

o 


你正在进行一系列独立试验。 




二项穸都麵0寿 


口 〆 • 


每一次试验都存在失败和成功的可能，每一次试验的成功概率 
相同。 

试验次数有限。 ^—〆 


1 
的 J 

这个条件癌重化 


和几何分布的情况一样，你要进行一系列独立试验，每一次试验结果 
或成功或失败。差别在于这一次你感兴趣的是获得成功的次数。 

让我们用 X 表示 “ n 次试验中的成功次数”，为了求出取得 r 次成功的 
概率，可用下列 算式： 


P(X = r) = n C r p r q n r 


p 是每一次试验的成功概率， n 是试验次数。 写作： 


其中 


"C. 


n! 


r! (n - r)! 


Ov 


A - 

)<= XQ: 
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期望和方差如何计髯? 


前面讲过如何使用二项分布计算基本概率，由此我们可以算岀答对一定数 
目的问题的概率。但是，如果答案是随机选择的，那么我们到底能期望自己 
答对几个问题呢？算出期望可以帮助你作出更正确的选择，以便决定是否参 
加下一轮问题的回答。 


让我们看看能否求出期望和方差的常规表达式。我们先算单次试验的期望和 
方差，然后看看是否能推广至 n 次独立的试验。 

先看单次试验 

假定我们只试验一次。每一次试验或是成功，或是失败，因此，在单次 
试验时，有可能取得0次或1次成功，如果 X ~ B ( l , p )， 则成功1次的概率 
为 p , 成功0次的概率为 q 。 


这炎 X 淤撖车兮螂. 
父符合 乂 ~ (彳 '？）• 


X 

0 

1 

P(X = x) 

q 

p 


我们可以根据以上条件求出 X 的期望和方差，让我们先算期望。 


e(x) = p, so eW 2 - T 5 


E ( X ) = Oq + lp 
=P 

Var ( X ) = E ( X 2 ) - E ( X ) 2 ^ 

=(Oq + lp ) - p 2 

=P - P 2 K 2 、 
n 、 乂" e(x 2 ) 

= P (1 - p ) 

=pq 

因此，单次试验的 E ( X ) = p , Var ( X ) = pq 。 那么 n 次试验呢？ 





一般情况下，如果有 n 个独立观察结果，那么期望和方差是多少？在本例中对我们有何帮助？ 
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让我们看看你是否能推导出 Y ~ B ( n , p ) 


的期望和方差。你的任务是从奇妙 


池中捞出公式因子，将这些因子放 


入计算式中的横线上。每个因子只 


能用一次，不必使用所有因子。 


提示： 每个 X ,是 i 次单独的试验。 
E ( X ,)= p , Var ( X ,) = pq „ 

你需要求出 n 个独立试验的期望和 
方差。 


E(X) = E(X,) + E(X 2 ) + …+ E(X„) 
= .E(X,) 


Var(X) = Var(X,) + Var(X 2 ) + … + Var(X„) 
=.Var(X,) 


注意：池中的每个因子 
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眘妙港解考 



让我们看看你是否能推导出 Y 〜 B(n, p) 


的期望和方差。你的任务是从奇妙 


池中捞出公式因子，将这些因子放 


入计算式中的横线上。每个因子只 


能用一次，不必使用所有因子。 


提示： 每个 Xi 是一次单独的试验。 
E(X)=p ， Va 「 (X) = pq 。 

你需要求出 n 个独立试验的期望和 
方差。 


+ 子试验 是独級 紙 咖卜咖 ）=咖)4此真推. 


= n E(X) 




Var(X) = Var%) + Var(X 2 ) + … + Var(X n ) 
=n Var(X) 

— 一 ^ 

=npq 一 " " 


也票 X 〜 p ). 则 E (乂) 
=Vflr(x) = up 气 


由子试验是独 立淤， ® 此 Vflr ( X ,) = vcir ( X 2 ) = Vflr ( X 3 ) , 4 此 矣推. 
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二顼分布的期望乌方差 


让我们归纳一下前面做过的分析。首先看单次试验的 情况： 单次试验 
的成功概率为 P, 符合二项分布。根据这些条件，我们求出了单次试 
验的期望和方差。 

然后我们分析了 n 个独立试验的情况，并利用简便方法求出了 n 次试验 
的期望与方差。我们发现，只要 X~B(n, p ), 则： 


E(X) = np 


Var(X) = npq 


这麥公 式对 0 二 
领兮坤都成立. 


得出这个结论十分有用，因为这样一来，我们不用大量计算单个概率, 
就能迅速求出任何二项概率分布的期望和方差。 


世上 M 儍问题 


I®): 几何分布和二项分布看着很 
相似。它们有区别吗？分别应该在什 
么时候用呢？ 

答： 几何分布和二项分布确实 
有共同之处，二者处理的都是独立 
试验，每次试验都或是成功，或是 
失败。差别在于实际上要求的结果。 
在哪种情况下使用哪种概率分布取 
决于要求的结果。 

如果试验次数固定，求成功一定次 
数的概率，则需要使用二项 分布； 
使用二项分布还可以求出在 n 次试验 
中能够期望取得的成功次数。 

如果你感兴趣的是在取得第一次成 
功之前需要试验多少次，则需要使 
用几何分布。 


1 ^) : 几何分布是有众数的，二项 
分布有众数吗？ 

^ : 有的。一个概率分布的众 
数就是具有最高概率的数值，如果 
p 为 0.5 且 n 为偶数，则众数为 np ; 如 
果 p 为 0.5 且 n 为奇数，则该概率分布 
有两个众数，即位于 np 左右两侧的 
两个数值。对于其他 n 值和 p 值，则 
需要通过反复试算的方法求众数， 
但一般都非常接近 np 。 

f 5 ) :几何分布和二项分布都要进 
行大量试验，每一次试验的成功概率 
都必须一样吗？ 


^:为了能应用几何分布和二 
项分布，每一次试验的成功概率都 
必须相同。如果不满足这个条件， 
则无论是几何分布还是二项分布都 
不适用。 

f 5 ) :我试着算出了 E ( X ), 但所得 
结果不是概率分布中的数值。我哪里 
做错了吗？ 

^ : 计算 E ( X ) 的时候，结果有 
可能不是概率分布中的可能数值， 
即，结果有可能不是一个会实际出 
现的数值。得出这样的结果并不表 
示你算错了，别担心。 

:还有其他类型的概率分布吗？ 

^ : 有。接着读吧，更多的内 
容在等着你。 
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二顼分布简硪指南 


下面是有关二项分布的简明总结，你可能用 得上： 

何时使用二顼分布？ 

进行次数固定的独立试验时可使用二项分布，这时，每一次试验都存在成功或失败的可能，而你感兴趣的 
是成功或失败的次数。 

如何计萁槪率？ 

公 式为： 

P(X = r) = n C r p r q" 

其中 p 为单次试验的成功概率， q = 1 - p , n 为试验次数， X 为在 n 次试验中取得的成功次数。 

期望和方差如何计萁？ 

E(X) = np Var(X) = npq 




n! 


r! (n - r)! 
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最后一轮“转椅臝嬴臝”游戏中共有5个问题， 每一题 的答对概率是0.25。 

1. 答对两题的概率是多少？ 


2. 答对3题的概率是多少？ 


3. 答对两题或3题的概率是多少？ 


4. 一 题也答不对的概率是多少？ 


5. 期望和方差是多少？ 
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最 后一轮 “转椅臝臝臝”游戏中共有5个问题，每一题的答对概率是0.25。 

解著 

1. 答对两题的概率是多少？ 

也票 x 代表答对鲶題數，则 x 〜 
p(x = 2) = 5 C 2 x 0.Z5 2 X 0.75 3 
5! 

=- x 0.0625 x 0 All 675 

3\2\ 

= f0 x 0.0264 
= 0.264 

2. 答对3题的概率是多少？ 

P(X = 3) = 5 C 3 x 0.Z5 3 x 0.75 2 
5! 

=- x 0.0156Z5 x 0.5625 

2131 

= 10 x 0.00879 
= 0.0879 



3. 答对两题或 3 题的概率是多少？ 


这么说你只怵期 f 
答对禾到2个间题？ 
我想现在是追出淤 
时候了，可借啊， 
你裊禾到銬犄了. 


P(x = 2或 x = 3) = P(x = 2) + P(x 

= 0.264 + 0.0879 
= 0.3519 

r 4. 一 题也答不对的概率是多少？ 

P(X = 0) = 0.75 s 
= 0.237 



5. 期望和方差是多少？ 
6(X) = ^ 


5 x 0.25 
1.25 


= 3 ) 


Vflr ( X ) = 

= 5 x 0.25 x 0.75 
= 0.9375 
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■ t : 玛吉 


2005 


您铋参加这攻智力雜戏真是太崧了 ， 希望您下攻 
再束.对了，说计邦电彩院剛才给我们来了一个 
电话，爆来龙出了点 间题？ 


动笔 

斛著 


几何分布、二项分布及泊松分 


下面是第二轮的提问，都是关于游戏主持人的问题。 


他的初恋女友叫什么名字7 


B : 梅丽尔 


A : 一 尊雕像 


C : 一匹马 


A : 主持智力节目 


2 . 最适合他的礼物是什么？ 


B : 一条 玩具狗 


D : 一艘 气垫船 


3. 他最大的成就是什么？ 


C ： 为海豹保护区募得 1000 美元善款 


B : 当选 “2008 年度统计邦先生” 
D : 发行唱片集 


A : 推出一系列体育设备 


C : 推出自己的男装系列 


4. 他有什么不可告人的野心？ 


B : 发行谜身 DVD 


D : 推出自己的美发系列 


5. 他在哪一年被外星人绑架了？ 
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认识泊松分布 


统计# 电影院遇到了问越 


众所周知，看电影怎么少得了爆米花 

问题出在爆米花机上，统计邦电影院的爆米花机总是坏，顾客们很不高兴。 

下星期电影院有一个大型促销，影院经理希望一切都完美无缺。他可不 
想让爆米花机在下星期坏掉，否则就再也没人来看电影了。 

爆米花机每一周的平均故障次数为 3.4, 或者说爆米花机的故障率为3.4。 
爆米花机下一周不发生故障的概率有多大？ 

如果预期下一周爆米花机会发生多次故障，则统计邦电影院会买一台新 
爆米 花机； 如果预期不会发生故障，他们将继续使用现在这台机器，但 
同时要承担机器故障的风险。 

达是另一种分布 

这次的问题与我们前面遇到过的问题不同。 

这一次不存在一系列的试验，相反，这一次的情况是这 样的： 已知故障 
的发生几率，且该故障是随机发生的。 

那么我们如何求出概率？ 

这一类问题的难点在于，尽管我们知道爆米花机每周的平均故障次数， 
但实际的故障次数却不是固定的。从总体上看，我们可以期望的故障次 
数是每周3或4次，但在倒霉的某一周，故障会多得多，而在顺利的某一 
周，故障则根本不会发生。 

我们需要求出爆米花机下周不发生故障的概率。 

听起来挺难吧？别担心，有一种概率分布是专门用来应付这种情况的， 
叫做泊松分布 3 
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几何分布、二项分布及泊松分布 




泊松分布包括以下 条件： 


o 单独事件在给定区间内随机、独立地发生，给定区间可以是时间 
或空间，例如可以是一个星期，也可以是一英里。 




o 已知该区间内的事件平均发生次数（或者叫做发生率），且为有 

限数值。该事件平均发生次数通常用希腊字母 X ( lambda ) 表示。 

让我们用 X 表示给定区间内的事件发生次数，例如一个星期内的损坏次 
数。如果 X 符合泊松分布，且每个区间内平均发生 X 次，或者说发生率 
为 X ， 则 写作： 

X ~ Po(A) 


我们就不在这里进行推导了。在求给定区间内发生 r 次事件的概率时， 


请使用下式进行 计算： 


P(X = r) = 


e A A r 


刺被表 面现 ㈣ f 标 
上竹其方法十兮简单名■接. 


这个求概率的公式用到了指数函数 e x， X 是未知数。大部分计算器都有这 
个标准函数，因此虽然这个公式看起来很复杂，实际应用却非常简单。 


例如，如果 X ~ Po (2) ，则: 


P(X = 3) 


使用这个公式，代入 


e 炎一 个数營常鈥’ 
一般洽 2. 7 18, 只要 
把这个麩官代入括 
十 4 今郊公 式就行1 . 
许多 斜脅竹龙器都 
嗜 6 X 键，用这个 
健计其 e 始幕. 


那么，如果 X 符合泊松分布，其期望和方差如何？答案比你想像的可 
能要简单一些…… 
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求解泊松分布的期望和方差 


泊柁分布的期望和方差 

求泊松分布的期望和方差比求其他分布的期望和方差更容易。 


如果 x ~ p 0 ( x )， 则 E ( X ) 为我们在给定区间内能够期望的事件发生次数, 
对于爆米花机来说，则为我们在普通的一周内能够期望的机器损坏次数， 
也就是说， E ( X ) 是给定区间内的事件平均发生次数。 

现在，如果 X 〜 Po ( X )， 则事件平均发生次数以 X 表示，即 E ( X ) 等于 X ，这 
个参数决定了我们的泊松分布。 

泊松分布（相较其他分布）更简洁的地方在于，它的方差也是 X ,因此, 
如果 X ~ Po ( X ), 则： 

E(X> = A Var(X }= 入 

即，如果给你一个泊松分布 Po ( X ), 你根本不用做任何计算就能得出期望 
和方差一泊松分布的参数本身就是期望和方差。 



泊柏分布是何形狄？ 

泊松分布的形状随着 X 的数值发生变化。 X 小，则分布向右偏斜，随着\ 
变大，分布逐渐变得对称。 

如果\是一个整数，则有两个众数， X 和 X -1, 如果 X 不是整数，则众数 
为 X o 



X 淤數值 • 
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化身烽沭花扒 



你的任旁龙你綦乍己長烽# 
花机，并珙出你在 r — 用的 
—个符龙时询換内英生软瑋 
的栩率。 纪馋， 你矣生顿钚 
的孕均夹势是每 J « i 4衣。 


1. 下 一周爆 米花机不发生故障的概率是多少？ 


2. 下一周 爆米花机发生3次故障的概率是多少？ 


3. 爆米花机发生故障的期望和方差是多少？ 
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化身爆米花机解答 


化身烽沭花扒斛奢 



你的 任旁是 假麥乍 己長烽米 
花机，并谀出你在 T — 用的 
—个特龙时询段户矣法杉棟 
的栖庠。纪饯，侪英生眯挤 
的毕均夹歎 龙每用 3. 4夾。 


让我们用 x 代泉爆来龙机在 
一周南始故陣攻數，已知 

X~P0(3.4) 


1. 下一周爆米花机不发生故障的概率是多少？ 
也票禾皮 i 故陣，则 x 必须态 o. 
t~ k A r 

p(x = o) =- 

r! 


e -” x 3 4 o 



看束我们可 4 期 f 爆米龙 
机在下周只皮 i 3. 4 攻故陣， 

所4我们可4冒险禾系漸爆米龙 
机一可别告诉那些看电彩鲶. 


0 ! 


r 3 


0.033 


2. 下一周爆米花机发生3次故障的概率是多少？ 
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几何分布、二项分布及泊松分布 


世上 没布儍问题 


1»): 为什么用 A 代表泊松分布的 

均值？为什么不像以前 一样用 M 呢？ 

^: 这是因为泊松分布的分布 

参数、期望和方差全都相等，因此 
用 X ,这样可以确保公正。 

(») :泊松分布的公式是怎么来的？ 

^: 实际上可以从其他公式推 

导出来，但会涉及很多数学知识。 
在实际应用中，最好的做法是记住 
这个公式及其应用条件。 

|«):泊松分布和其他概率分布有 


( o | : A 必须是整数吗？ 

^ : 完全不是这样。 X ■可以是任 
何非负数，但不能是负数，因为它 
代表一定区间内的事件平均发生次 
数，事件发生次数为负数是没有意 
义的。 

R : 公式中的 “ e ” 到底是什么 
意思？ 

^ : e 是一个数学常数，即数字 
2.718, 在计算泊松分布时，要在公 
式中代入常数 2.718。 


|»): 我用泊松分布计算概率的时 
候经常出错，哪里容易引发错误？ 

答: 有两个部分容易搞错。 

第一，一定要用对公式， r 和 X 
很容易混淆，因此一定要确保二 
者正确无误。 

第二，一定要在算式中正确应用 e - 
函数，把 e -* '留到最后再算是一个办 

法-即先把其他东西算出来，最后 

再乘以 e ' k 。 


何差别？ 

^: 主要差别是泊松分布不需 
要做一系列试验，但它描述了事件 
在特定区间内的发生次数。 


O 



常数 e 在微积分中应用频繁，广泛用 
于从计算复利到高等概率理论的各 
种应用。对 e 的深入讨论不在本书范 
围内， 


蚀料呢7我想边吃爆米龙 
边喝钕料.马上给我食 饮料! 


统计邦电影院又碰到了一个问题。 

不仅爆米花机总是出故障，现在，连饮料机也开始出故障了。饮料机每 
周的平均故障次数是2.3。 

下个星期就要大促销了，任何机器坏了影院经理都要吃不了兜着走。下 
个星期，爆米花机和饮料机都不出故障的概率有多大？ 




. 膊 


饮料机的概率分布是怎样的？我们如何求出爆米花机和 
饮料机在下个星期都不出故障的概率？ 
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x + y 泊松分布 


概率分布是怎样的? 


让我们好好看看这种情况。 

我们有两种 机器： 爆米花机和饮料机，每种机器在一周内的平均故障次数已 
经知道，求下一周机器不出故障的概率。 


下面是两种机器的 分布： 

烽 沭花机 饮料扒 


爆来龙机每阑友 i 故 
陣的早均攻數是 3 .弋 



X ~ Po(3.4) 


Y ~ Po(2.3) 


伙料机每阁灰生故陣 
淤半珀次軚支 2 . 3 . 


如果 X 代表爆米花机每周发生故障的次数， Y 代表饮料机每周发生故障的次 
数，则 X 和 Y 都符合泊松分布，另外， X 和 Y 是相互独立的，即爆米花机是否 
发生故障对饮料机发生故障的概率没有影响，而饮料机是否发生故障也对爆 
米花机发生故障的概率没有影响。 

我们需要求出下个星期故障总次数为0的概率， BP : 

P(X + Y = 0) 





回头复习概率章节，如果 X 和丫是独立变量，那么如何求 X + 丫的概率？ 
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几何分布、二项分布及泊松分布 


组含泊柁变1 

前面的章节中讲过，如果 X 和 Y 是独立随机变量 ，则： 

P(X + Y ) = P ( X ) + P ( Y ) 

E(X + Y ) = E ( X ) + E ( Y ) 

即如果 X ~ Po (入 x ) 且 Y ~ Po (入 y ) ，贝 ij : 

X + Y ~ Po(A x + A y ) 

即，如果 X 和 Y 都符合泊松分布，则 X + Y 也符合泊松分布。也就是说, 
可以利用 X 和 Y 的分布情况求出 X+Y 的概率。 


笔 

1 . X + Y 的分布情况如何？ 


如果 X 是爆米花机的故障次数， Y 是饮料机的故障次数，则 
X - Po (3.4), Y ~ Po (2.3)。 


2.求出 X + Y 的分布后，可以根据分布求出概率。 P(X + Y = 0) 是多少？ 
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如果 X 是爆米花机的故障次数， Y 是饮料机的故障次数，则 
X〜 Po(3.4), Y 〜 Po(2.3) 0 

1. X+Y 的分布情况如何？ 

+ Ay = 3.4 + 2.3 
= 5.7 

X + Y~P0(5.7) 

2. 求出 X+Y 的分布后，可以根据分布求出概率。 P(X + Y 二 0) 是多少？ 

g- 入入 r 

p(x + Y = o) =- 

Y \ 

t' 5 J x 
0 ! 

g -5 7 x 
1 

= 0.003 



动动笔解答 

r I 动动笔 
、、斛著 


(o ) :这是不是说前面学过的关于 
概率和期望的简明算法也适用于泊松 
分布？ 

^ : 不错。由于爆米花机是否发 
生故障对饮料机发生故障的概率没 
有影响，反过来，饮料机是否发生 
故障对爆米花机发生故障的概率也 
没有影响，因此， X 和 Y 都是独立随 
机变量，于是所有适用于独立变量 
的简明计算方法都能为我们所用。 


世上 M 傻问题 

1») : X+Y 为什么会符合泊松分布？ 

^ : 这是因为 X 和 Y 都是独立变 
量，且都符合泊松分布。 

爆米花机和饮料机都会随机出现故障, 
但有一个平均故障率，这意味着将两 
种机器放在一起后，也会随机发生故 
障，也会有一个平均故障率，也就是 
两种机器合起来仍然符合泊松分布的 
条件。 


|«): 所以我们就能像应用其他泊 

松分布一样应用 X+Y 的分布？ 

答： 是的，我们可以用完全相同 
鈉方式对待 X + Y 的分布，因此，只 
要知道参数 X ,就能求出概率。 
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几何分布、二项分布及泊松分布 


案件：破碎的饼干 


凯特在统计邦曲奇饼厂工作，她的工作是确保每一盒饼干都符合工 
厂严格的质量要求。凯特知道每块饼干发生破碎的概率为0.1，她 
的老板要她求出一盒容量为100块饼干的盒子里岀现15块碎饼干的 
概率。“这容易”，她说道，“用二项分布计算好了， n 为100, p 



凯特拿出计算器，可当她计算100!的时候，计算机显示出 
错， 因为数字太大。“哦，”老板说，“你只好用手工方法 
我现在可是要回家了，祝你晚上愉快。” 


凯特瞪着计算器，动起了脑筋。随后她笑了，“也许我今晚可以早 


点走，到底还是有办法的。 


不出1分钟，凯特就算出了要求的概率。她设法绕过了 100!的计 
算，求出了概率。她拿起外套走出了厂门。 


凯特怎么能这么快就避开计算器的限制算出概率？ 
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近似泊松分布 


伪装 T 的泊松分布 

泊松分布还有一个 用途： 在特定条件下可以用来近似代替二项分布。 




有时候，使用泊松分布比使用二项分布更简单 

例如，假设需要计算一个二项概率，其中 n 为3000。在此过程 
中需要计算3000!，就算有一个好计算器，这也很难计算出来。 
因此，懂得用泊松分布正确地求解近似答案就显得十分有用。 

那么我们在什么条件下能用这种近似法，该如何用？ 


假设我们有一个变量 X ,且 X ~ B ( n , p ), 要求有这样一种条 
件： B ( n , p ) 近似等于 PoU )。 

让我们首先研究两种分布的期望和方差。我们的目标是找出泊 
松分布的期望和方差近似等于二项分布的期望和方差的情况, 
即 希望： 


期 f 

A 

近似 np ) 

_ _ np 近似 

方差 一 


近似 npq 、 

^ - - - 


当 q 近似等于1且 n 很大时， np 和 npq 近似相等 。即: 


当 n 很大且 p 很小时，可以用 X ~ Po ( np ) 近似代替 
X ~ B ( n , p ) 0 
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当 n 大于50且 p 小于 0.1 时，为典型的近似情况。 



几何分布、二项分布及泊松分布 




一个学 生要参加一场考试，但他没有做任何复习。他需要猜测每一题的答案，每一题的答对 
概率是0.05。考卷上共有50个问题，他答对5题的概率是多少？用二项分布的泊松分布近 
似法求解。 


世上 M 傻问题 


|»):为什么有时候需要用泊松分 
布近似代替二项分布进行计算？ 

^ : 当 n 很大时，计算 " C ； 比较困 
难，有些计算器会发生内存不足的 
情况，且太大的计算结果会难以处 
理。使用泊松分布进行近似计算可 
以克服以上困难。 


|»): 那么什么时候可以使用这种 

近似法？ 

^ : 当 n 很大(比如大于 50), p 很 
小（比如小于 0.1), 这时可以使用近 
似法，在这种情况下，二项分布和 
泊松分布近似相等。 


1»):为什么把 np 作为泊松分布的 
参数？ 

答： 泊松分布只有一个参数\ , 
且 E ( X )= X 。 这就是说，如果我们将 
泊松分布作为二项分布的近似，则 
可以代入二项分布的期望 np 。 
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练习即推理解答 






一个学 生要参 加一场 考试，但他没有做任何复习。他需要猜测每一题的答案，每一题的答对 
概率是0.05。考卷上共有50个问题，他答对5题的概率是多少？用二项分布的泊松分布近 
似法求解。 


让我们用 X 耒示含金猜对鲶间题鲶數0 , 在净例 中，八=50, p = 0.05 f uvp = 2.5, 子是可彳用 
X 〜朽( 2 . 5 )近似计箕概車. 
t~ k K r 

P(X = 5) =- 

r! 

e' 2 5 X 2.5 5 
5! 

er Z5 x 97.65615 
120 

= e' 2 - 5 x 0.8138 
= 0.067 


破案：破碎的饼干 


凯特怎么能这么快就避开计算器溢出错误算出槪率? 

凯特发现，尽管需要用二项分布进行计算，但 n 和 p 
的数值却允许她用泊松分布对概率进行近似计算。 

许多计算器无法计算大阶乘，有时候这会令二项分 
布无法作为，这时懂得用泊松分布进行近似计算会 
大大节省你的时间。 


5穸钟 
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几何分布、二项分布及泊松分布 


冇人要爆米铊码？ 

本章内容已经接近尾声，通过学习三种最重要的离散概率分布，你 
的概率和统计知识又长进了不少。你深人了解了概率分布的作用, 
掌握了既能节省时间、又能得出可靠结果的简明算法，这些技术将 
在本书后续章节发挥作用。 

小坐一会儿，吃点儿爆米花吧，犒劳犒劳自己。 


泊柁分布简蜊指南 

下面是有关泊松分布的简明总结，你可能用 得上： 

何对使用泊柁分布？ 

在遇到独立事件时(例如机器在给定区间内发生故障)，若已知即给定时间区间内的事件平均发生次数)且 
你感兴趣的是一个特定时间区间内的发生次数，这时可使用泊松分布。 

如何计萁槪率、期望和方差？ 

计算方法 如下： 

e -入入 r 

P(X = r) =- E(x> = A Var(X) = A 

r! 

如何 对独交 随机変 量逬行 组含？ 

如果 X ~ Po(A )且 Y ~ Po ( M ，则： 

y X + Y ~ Po(A x + A y ) 

泊柁分布乌二顼分布冇何兵系？ 

如果 X ~ B ( n , p ), 当 n 较大而 p 较小时， X 可以近似表 示为： 

X ~ Po(np) 
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加强练习 


□ 


>強练勻 


下面 是一些 实例。你的任务是说出每个实例符合哪种概率分布，指出期望和方差，并求 


出各种概率。 

1. 某人正在打保龄球，他击倒所有球柱的概率为 0.3, 如果他可以掷球10次，在3次以内击倒所有球柱的概率是多大？ 
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几何分布、二项分布及泊松分布 


2. —辆公 共汽车平均每15分钟会停 一站。 在15分钟以内不出现公共汽车的概率有多大？ 


3. 有20%的麦片盒里装有免费玩具，每盒一个。打开不到4只麦片盒就能得 到第一 个免费玩具的概率有多大？ 
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加强练习解答 



㈣ 嚣 $ 


V«r(x) = 八 p 气 

= 10 x 0.3 x 0.7 
= 2.1 


下面是一些实例。你的任务是说出每个实例符合哪种概率分布，指出期望和方差，并求 
出各种概率。 

1. 某人正在打保龄球，他击倒所有球柱的概率为 0.3, 如果他可以掷球10次，在3次以内击倒所有球柱的概率是多大？ 


也票用 x 代表 这个人 击倒金都球 # 鲶攻數， 则 x 〜 B()0,0.3): 

6(X) = kvp 

= 70 x 0.3 
= 3 

通用概率 P(X = Y) = x x ^ 

P(X = 0) = 10 C 0 x 0.3° x 0.7 10 
= 1 x 1 x 0.028 
= 0.0Z8 

P(X = 1) = ,0 C f x 0.3 1 x 0.7 9 

= 70 x 0.3 x 0.04035 
= 0.727 

P(X = 2) = ,0 C 2 x 0.3 2 x 0.7 8 

= 45 x 0.09 x 0.0576 
= 0.233 

P(X < 3) = P(X = 0) + P(X = 7) + P(X = 2) 

= 0.028 + 0.727 + 0.233 
= 0.382 
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几何分布、二项分布及泊松分布 


2. 一辆公 共汽车平均每15分钟会停 一站。 在15分钟以内不出现公共汽车的概率有多大？ 

也票用 X 泉示每75舍钟"1南侉食淤公共洗车蜣數⑴. 

e(x) =K vnrCx) = A 

=, =) 

g-A 入 r 

通用概率 P(X = r)= - 

r! 

t ' 1 x i° 

P(X = 0)= - 

0! 



1 


= 0.368 

3 .有20%的麦片盒里装有免费玩具，每盒 一个。 打开不到4只麦片盒就能得 到第一 个免费玩具的概率有多大？ 
也票用 X 表示忌7找 A 第一个虼其需要打丹蛛轰片盒的數 S ，则 xieo ( o . 2 ). 

E ( X ) = ’/p Vflr ( X ) = ^/ p 2 

= "O. 2 = 0.8/0.2 2 

= 5 = 0.8/0.04 

= 20 

通用概率 T >( X < r ) = 1 - o ( 

P ( X ^ 3) = 1 - 0 ( 

= 1 - 0 . 8 3 
= 1 一 0.512 
= 0.488 
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要点 



■ 几何分布 的应用 条件：进行一 
系列独立试验， 每一次 试验或 
成功或失败，每一次试验的成 
功概率相同，你主要想知道的 
是： 为了取得第一次成功，需 
要进行多少次试验。 

■ 如果符合几何分布的条件，那 
么用 X 表示为了取得第一次成 
功需要试验的次数，用 P 代表 
单次试验的成功概率，贝 y : 

X ~ Geo ( p ) 

■ 如果 X ~ Geo ( p ), 则下列概率 
算式 成立： 

P(X = r ) = pq 1 " 1 
P(X > r ) = q r 
P(X 矣 「） 二 1 - q r 

■ 如果 X ~ Geo ( p ), 贝！ J : 

E ( X ) = 1 /p 
Var ( X ) = q / p 2 


■ 二项分布 的应用 条件： 进行一 
系列次数有限的独立试验，每 
一次试验或成功或失败，每一 
次试验的成功概率相同，你主 
要想知道 的是： 在 n 次试验中 
能成功多少次。 

■ 如果符合二项分布的条件，那 
么用 X 表示 n 次试验中的成功次 
数，用 p 代表单次试验的成功 
概率，贝! I : 

X ~ B ( n , p ) 

_如果 X ~ B ( n , p ), 则可通过下 
式计算 概率： 

P(X = r ) = n C r p r q n " r 

其中： 

n ! 

nQ _ _ 

r r ! (n - r )! 

■ 如果 X ~ B ( n , p ), 则: 

E ( X )= np 

Var ( X ) = npq 


■ 泊松分布 的应用 条件： 单个事 
件在给定区间内随机、独立地 
发生，已知给定区间内的事件 
平均发生次数，或者叫发生 
率，且这个发生次数或发生率 
是有限的，主要想知道 的是： 
给定区间内的事件发生次数。 

■ 如果符合泊松分布的条件，那 
么用 X 表示给定区间内的事件发 
生次数，用 A 代表发生率，贝 

X ~ Po (入） 

■ 如果 X ~ Po (入），贝 L 


E ( X ) = A 
Var ( X ) = A 

■ 如 SX ~ Po (入 x ), Y - Pc ^ Ay ), 
颜 PY 恩 SSlM , 则： 

X + Y ~ Po (入 x + 入 y ) 

■ 如果 X ~ B ( n , p ), 其中 n 足够 
大， p 足够小，则可将该分布近 
似看作 X ~ Po ( np )。 
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8 正 态分布的运阁 


1 


到目前为止，我们接触到的都是可以指定确切数值的概率分布。然而并非所有数据 
集合都是如此，还有几类数据并不符合我们之前遇到的概率分布。我们将在这一章 
里讲解所谓的连续型概率分布，并介绍最重要的概率分布类型之—正态分布。 


进入新的篇章 325 



离散数据与连续数据 


离殽数椐玎取碥切值…… 

前面讲到的概率分布涉及的都是离散数据，即数据由一个个单独 
的数值组成，其中的每一个数值都有相应概率。例如，在分析老 
虎机收益概率分布时，每一局赌局可能出现的收益数额是确定的, 
我们很清楚各种情况的赔率，也知道自己有机会贏到其中一种。 

如果是离散数据，则为数值型数据，只能取确切值。离散数据往 
往能以某种方式进行计数，例如糖果机中的糖果数目，智力游戏 
中答对的问题的数目，或是机器在一个特定时段内的故障次数。 
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保持正态 


但#非所冇数值型数椐都是离殽的 

一一列举一个数据集中的所有数值并不总是能够实现。有时候，数据涵 
盖的是一个范围，这个范围内的任何一个数值都有可能成为事件结果。 
例如，假定有人让你精确地测量几段丝线的长度，并且已知这些丝线 
的长度在10英寸到11英寸之间，你的测量结果可能会是10英寸、 10.1 英 
寸、 10.01 英寸，等等，因为丝线长度可以是这个范围内的任意值。 

这样的数据叫做连续数据，连续数据往往通过测量得到，而不是通过计 
数得到，测量结果在很大程度上取决于测量精度要求。 


tr 二"二 






V 


V 




1 2 3 4 5 


違樣 軚据就义:务 

^去. 



"V 


•/ 


V 




/ 





数据类型会影晌求槪率的方法。 

前面我们只讲过离散数据的概率分布，利用这些概率分布，我们可以求出确切 
的离散数值的概率。 

问题是，现实生活中有不少问题所牵涉到的都是连续数据，离散概率分布对这 
类数据无能为力。为了求解连续数据的概率，你需要懂得连续数据以及连续概 
率分布。 


同时，有人遇到了一个问題 • 
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频数与连续数据 


推迟几分钟? 


朱莉是一名学生，她最好的朋友不停地安排她“相亲”，希望她能找到 
她的“他”。唯一的麻烦是，许多“相亲男”都不准时到场，或者根本 
就不现身。 

朱莉讨厌孤零零地等待约会对象出现，于是她给自己立了 规矩： 如果等 
过20分钟对方还不来，她就离场。 



' 幽換0标炎 M 


今晚我述省另外一个紿会呢. 

我脅吏禾会筹 2 0兮钟上，我付厌傻著. 
我被奶在一边儿專5舍钟4上鲶概率是多 
少？ 你铖帮忙其一 其吗？ 


下面这张频数图显示出朱莉为了见到约会者而等待的 时间: 



说计邦•‘桐辜男”尽 准时. 
他们的抵达时同飘忽禾定 • 


朱莉抵达 严 
的时同. 



象莉离丹淤时阂 . 


分钟 



雖 


我们需要求出朱莉为了见到约会对象而等待的时间的概率。这些时间量是离散的还 
是连续的？为什么？你认为我们该如何求出概率？ 
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保持正态 


我们熏要求线续数雉的槪挛分布 

我们需要求出这种情况的 概率： 朱莉为了见到约会对象而等待5分钟以上。 
问题是，朱莉的等待时间是连续数据，也就是说，我们前面学过的概率分 
布在这里不适用。 


处理离散数据时，我们可以找出特定的概率分布。为此，我们可以将每个 
数值的概率列于表格，也可以指岀数据符合某个特定概率分布(例如二项分 
布或泊松分布），通过这些做法，可以确定每一个可能数值的概率。例如， 
在我们求出肥蛋赌场每一台老虎机的每局收益概率分布后，我们就知道所 


有可能贏得的金额，还能算出每一种贏钱金额的概率。 


对子离散紗 • 《们赠 
^ 一 电每 一个數 值泊橄率. 



连续数据则是另一番情形。我们再也无法给出每一个数值的概率，因为我们 
不可能列举每一个精确数值。例如，朱莉的约会者可能会在4分钟以后出现, 
在4分钟10秒以后出现，或在4分钟 10.5 秒以后出现，我们不可能数清楚所有 
的可能时间。相反，我们需要关心的是一个特定精度水平，以及取得一个数 
值范围的概率。 
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概率密度函数 


概率密度亟数玎用子猫迷逢续数梅 


我们可以用概率密度函数描述连续随机变量的概率分布。 


概率密度函数 f ( x ) 是这样一种 函数： 通过它可以求出一个数据范围内 
的某个连续变量的概率，它向我们指出该概率分布的形状。 

下面是一张概率密度函数图，示意了朱莉为了见到约会者而等待的 


时间< 





0 20 

看出来了吗？这个图形与频数图形多么相符。这并非巧合。 

概率的实质是告诉我们事情发生的可能程度，而频数告诉我们 
数值出现的频繁程度。频数越高，数值出现的概率越大。由于 
在最初20分钟内，朱莉的等待时间的频数为常数，这意味着概 
率密度函数也是常数。 




分钟 
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概挛 * 靣积 

连续随机变量的概率通过面积表示。为了求出一个特定数值范围的概率，首先 
可画出概率密度函数，位于函数图形下方且介于这个特定数值范围之间的面积 
就是这个特定数值范围的概率。 

例如，我们想求出朱莉为了见到约会对象而等待 5-20 分钟的概率，可以画出概 
率密度函数，再求出位于这个概率密度函数下方且 x 值介于5-20之间的面积。 



线下总面积必须等于1,因为总面积代表总概率一对于任何概率分布来说，总 
概率必须等于1,因此面积也必须等于1。 


ft 二以 


0 20 x 

让我们利用这张图求出朱莉为了见到约会者而需要等待5分钟以上的概率。 




动动勝 


线下总面积必须为1 。 f ( x ) 的数值是多少？ \ 


提示： 是个常數. 
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求解 f(x) 

欲算概率，先求 f ( x ) …… 

在为朱莉算出概率之前，我们需要求得 f ( X )， 即概率密度函数。 

我们已经知道 f ( x ) 是一个常数，也知道这个函数下方的总面积等于1。观察 f ( x ) 
的图形可知，图形下方是一个矩形，底宽为20。只要求出矩形的高，就可以 
得岀 f ( x ) 的数值。 



矩形的面积等于宽乘以高 ，即： 

1 = 20 x 高 
高=1/20 
= 0.05 

这意味着 f ( x ) 必须等于0.05,才能确保线下面积等于1。 即: 


图形 如下: 


f ( x ) = 0.05 其中 x 的值介于0到20之间。 



0.05 





介一 20 心 


0 0 5 ， 


0 20 X 

求出概率密度函数后，就可以求 P ( X >5) 了。 
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爯求面积，玎得概挛 

概率密度线下方介于5-20之间的区间是一个矩形，于是算出矩形面积将能 
得出概率 P ( X > 5)。 

P(X > 5) = (20 - 5) x 0.05 

°' 75 产矩形面相=我 X •高 

所以，朱莉等待5分钟以上的概率为0.75。 


x 苓子5时 ，彻 = 

0.05. 

0.05 



我典领用面积弟概 車吗？ 禾铖把郓 
个范( I )罜蜣數值一个一个选出束，再 
把这瘙數偟的概率加起 来吗？ " i 前离 
散概率就是这么彤鲶. 


O 


这种做法不适用于连续概率。 


对于连续概率，我们必须通过计算概率密度曲线下方的面积得出概率。 


不能通过把数值范围内的每一个数值的概率相加得出连续概率分布的概 
率，原因是数值个数无穷无尽，因此求和计算也会无休无止。 


对于连续概率分布的概率，唯一的办法就是算出由连续概率函数形成的 


曲线下方的面积。 


处理连续数据时，所计 
算的是一 T 数值范_的 
概率。 
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世上没有傻问题 


|«): 有一种 函数叫做概率密度函 
数，那么什么是概率密度？ 

^: 概率密度指出各种范围内 
的概率的大小，通过概率密度函数 
进行描述。它与我们在第一章碰到 
过的频数密度十分相似。概率密度 
通过面积标示概率大小，而频数密 
度通过面积标示频数大小。 

|»): 难道概率密度和概率 不是一 
回事？ 

^: 概率密度是一种表示概率 
的方法，但它并非概率本身。概率 
密度函数是图形中的一条线条，而 
概率则是这条线下方的一定数值范 
围内的面积。 

|»): 我明白了，这么说，如果 
有一 张图，图中画出了概率密度函数， 
可以通过观察面积求出概率，而不是 
直接从图上读出概率。 

^ : 完全正确。对于连续数据， 
需要通过计算面积求出概率。从图 
上直接读出概率数值仅适用于离散 
概率的求解。 


世上没布傻问题 


(») : 必须通过计算面积求概 

率……这是不是搞复杂了？我是说， 
要是概率密度函数 是一条 曲线，而非 
直线，那该怎么办？ 

^ : 还是行得通，但需要用到 
微积分，因此本书不打算让你进行 
这类计算。问题的关键是，要明白 
概率的来历，以及如何理解这种概 
率。 

如果你实在对通过微积分计算概率 
感兴趣，无论如何都想试试，请大 
胆尝试，放手去学吧。 

1«):关于概率范围，你已经汫过 
不少。我如何求出一个精确数值的 
概率？ 

^: 在处理连续数据的时候， 

实际上考虑的是一个可以接受的精 
度，并且基于这些数值形成一个范 
围。让我们看一个例子： 

假定你想要一段丝线，长度10英寸， 
精确到英寸。虽然“你需要一段正 
好长10英寸的丝线”这种说法最容 
易脱口而出，但这并不完全正确。你 
真正想要的是一段长度介于 9.5 英寸 
到 10.5 英寸之间的丝线，因为你想让 
这段10英寸长的丝线“精确到英寸”。 
即，你想求出长度介于 9.5 英寸到 10.5 
英寸这个范围内的概率。 


1»):如果我想求某一个精确的数 
值的概率，会是多少？ 

^ : 结果为0——猛一听可能会 
觉得有违直觉，但你的问题其实可 
以这样 理解： 求一个具有无穷小数 
位数的精确数值的概率。 

让我们再以丝线长度 为例： 如果你需 
要一段长度正好等于10英寸的丝线， 
会出现什么局面？——你会需要用一 
台高倍放大镜，以原子大小为精度， 

量出一段10英寸长的丝线。 

“丝线的长度正好为10英寸”这个事 
件基本上不可能发生。也就是其概 
率为零 

f 5 ) :但我确信不需要那样高的精 
度。精确到百分之 一英寸 就够了，肯 
定是这样的，对吧？ 

^: 啊，这样就不是在讨论求一 
个具有无穷精度的数值的概率，而 
是回到10英寸长度的测量精度问题 
上了——你用自己选定的精度来构 
建可以接受的测量范围，得以算出 
概率。 
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保持正态 


化身够率费虞瘅势 



—些栴 庠费度岛势:找> 到它扪的衹率 
3,你的任旁龙假黎令己龙雜率费度 
&数, 算出銪龙 办值范 酹户的稹率。 
必要时 可&辑帮垆。 


1. f ( x ) = 0.05, 其中 0< x <20。 
求 P(X <5)。 


2. f ( x ) = 1,其中0 < x < 1。 
求 P ( X <0.5)。 


3. f ( x ) = 1,其中0 < x < 1。 
求 P(X >2)。 


4. f ( x ) = 0_1 - 0.005X, 其中 0 < x < 20 。 
求 P(X >5)。 
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化身概率密度函数解答 



化 身糠率 费度薜歎斛考 

—些!枥庠费 度曲努 找> 到它们的楱率 
3 ,你的任旁龙假黎乍己龙栴卑费虞 
隹努， 箕出抟龙麥值范闺户的核庫。 
必要时可&筘帮垆„ 


1. f ( x ) = 0.05, 其中 0< x <20。 
求 P(X < 5)。 



2. f ( x ) = 1,其中0 < x < 1。 
求 P ( X <0.5)。 



3. f ( x ) = 1,其中0 < x < 1 o 
求 P(X >2)。 

这个概車密度疵麩的<的上限是 t 
即在大子上限时，结票态 o . 


4. f ( x ) = 0.1 - 0.005 X , 其中 0 < x < 20。 
求 P(X >5)。 

当 ; C = 5时 , fW = 0.075. 即我们必领求出 
^0.075. 宽 75 的直角三角彤蜍面积. 


P(X > 2) = 0 




V~> 


X > 7则概車密度志 



0 


0 


2 ^ 


■> 



P(X > 5) = (0.075 X 15)/2 
= 1 .125/2 
= 0.5625 


王角形淤面轵專子義 
乘 " i 高之积蜣 v 2 . 
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保持正态 


要点 

■ 离散数据由单 个数值组成。 

■ 连续数据包含 一个数据范围，这 
个范围内的 任何一 个数值都有可 
能发生。其数据常常用测量方法 
得到，而不是用计数方法得到。 

■ 连续概率分布可以用概率密度函 
数进行描述。 


■ 通过 计算一 个数值范围内的概率 
密度函数下方的面积，可得出该 
数值范围的概率。也就是说，为 
了求出 P ( a < X < b ), 必须计算 
a 和 b 之间的概率密度函数下方的 
面积。 

■ 概率密度函数下方的总面积必须 
等于1。 


概率髯好了 


前面已经讲过如何使用概率密度函数求连续数据的概率。我们算 
出，朱莉为了见到约会者而需要等待5分钟以上的概率是0.75。 



正态分布的运用 
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身高概率 


唯一 

导找易碗伴侣 

除了青睐守时的男伴，朱莉对于她这一类女生的另一半应该有的模样也 
有打算。 



我鲶男伴要在我穿最高紿高 
跟鞋时都也我高.鞋 J 省 M 
是第一老虑. 


朱莉喜欢穿高跟鞋，鞋子越髙她越开心。唯一的问题是，她坚持 
要自己的男伴在她穿最高的高跟鞋时也比她高，目前她身边没有 
合适的人。 


可惜，前两次“相亲”的男子没有达到朱莉的预期。她想知道这 
些约会对象中有几个比她髙，以及约会者身髙够得上她的标准的 
概率是多少？ 
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保持正态 


男伴糢型 

前面讲过十分简单的连续概率分布，但那样的概率分布无法体现吸 
引朱莉赶赴约会的男生的身高模型。在这些男生中，很可能有几位 
的身高远远低于平均水平，有几位确实很高，还有很多介于以上两 
种情况之间。我们可以期望大多数男生都具有平均身高。 



在这种给定模式下，男生身高的概率密度有可能是这个样子。 



实际上，这种形状十分常见，应用广泛，它叫做正态分布。 
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正态分布简介 


正态分布是逄续数椐的“理®”糢型 

正态分布之所以被称为正态，是因为它的形态看起来合乎理想。在现实 
生活中，遇到测量值之类的大量连续数据时，你“正常情况下”会期望 
看到这种形态。 

正态分布具有钟形曲线，曲线对称，中央部位的概率密度最大。越是偏 
离均值，概率密度减小。均值和中位数均位于中央，具有最大概率密度。 

正态分布通过参数和 cr 2 进行定义。 A 指出曲线的中央位置， cr 指出分 
散性。如果一个连续随机变量 X 符合均值为^、标准差为 T 的正态分布, 
则通常写作 X ~ N ( ja , CT 2 )o 


最犬概率密屢虫规在均值附近 
函此这一带始數值最可铖出现’ 


X ~ N(|I, a 2 ) 




M 



\ 


具唷正常彤态太崧: r , 
在娌想惰况下.人人都 
会是我这个楫务. 


\ 


\ 


\ 


租洚珀值祕 • 
/ 怫料 象蜒小 • 


a 2 




前面讲过， P 指出曲线的中央位置， （ T 2 指出分散性。在实践中，这意味着 
a 2 越大，正态分布曲线越扁平、越宽。 
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票雎离 H 趟逸.则概率 
密度姪小紿话，那么概率密 
度什么时候4子0呢？ 


无论把图形画多大，概串密度永远不会等于0。 

概率密度会越来越接近0,但永远不会达到0。如果在距离 M ■十分遥 
远的地方观察概率密度曲线，你将发现曲线就在0的上方掠过。 

还可以这样 理解： 事件越来越不可能发生，但微小的发生机会却永 
远存在。 


如何求正态槪率？ 

像处理其他连续概率分布一样，可通过计算分布曲线下方的面积 
求出概率。曲线代表概率密度，概率则以特定范围内的面积表示。 
例如，如果你想求出介于 a 和 b 之间的变量 X 的概率，则需要求出 
曲线下方介于 a 点与 b 点之间的面积。 



阴彩鄯今代耒介子 a 和 
b 之同蟋 x 鲶概車. 


似乎很复杂？别担心，这比你想像的要容易。 

如果全靠自己计算正态曲线下方的面积，难度很大。不过，幸运的是, 
你可以借助概率表进行査找。只要算出要求其面积的范围，再在概率表 
中查相应概率就行了。 




求解概率分布 


正态概 率计髯 三步法 

求正态概率需分几个步骤。我们会指导你完成整个过程，不过请 
先看看下面这张导向图，弄清方向。 


o 确定分布与范围 




刺 祕吾试料雜撤車. 
二知这 M 撤 

要 ㈣ H 一都兮祕 • 


( ㈣2 ' 3 以么做. 


o 使其标准化 


—里銬 化感正 志曲钱 
f 滅朗奸易用龄 
概车表查我概率. 

大功告成/ 
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保持正态 



我们还需要知道哪个数值范围能得出正确的概率面积，在本例中，我们要求 
出与朱莉相亲的男生具有足够身高的概率。 
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正态变璗标准化 


第 Z 步: 标准化为 N (0,1) 


下一步是让变量 X 标准化，使均值为0,标准差为1,据此得出标准正态 
变量 Z , 而2~ N (0, 1)。 



概率表仅给出 N (0, 1) 的概率。 

概率表主要给出了 N (0, 1) 分布的概率，因为不可能为每一条正态分布曲线 
制定概率表。^和(1 2 的可能值无穷无尽，当正态曲线用这些数值作为参数 
表示曲线的中间位置和分布情况时，可能的正态分布曲线也无穷无尽。 


\ 


1.0 

0.8 

i 

0.6 -t 
\ 0.4 

A 。 




^ = 0 ; ct 2 = 0.2 
|i = 0, a 2 = 5.0 
= -2, a 2 = 0.5 




-3 -2 -1 0 



能够利用标准正态分布意味着能够为^和 CT 2 的所有可能数值使用同一概率 
表。只有一个 问题： 如何将正态分布转变为标准形式？ 



动动膊 


你觉得我们可以怎样对正态分布进行标准化？ 
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保持正态 


欲完成标准化，先移劫均值 . 

让我们先进行正态分布转化，使得均值为0,而不是71,为此，将曲线 
向左移动71。 


M = 0 向左移 7 f || = 71 



这样就得到一个新 分布： 

X — 71 〜 N (0, 20.25) 


然后收窄 


我们还需要调整方差。为此，通过除以标准差“挤窄”我们的分布。已 
知方差为 20.25, 所以标准差为4.5。_4__ 


于是得到 


X - 71 


复习 一下： 标准差是 
方差蟋早方報. 


N (0, 1) 


或 Z ~ N (0, 1), 其中： 
X - 71 


看着眼熟吗？这正是我们在第3章中首次讲到标准差时出现过的 
标准分。通常，通过下式可求出任何正态变量 X 的标 准分： 




乂是我们试 ( g 求 

其概率的京量. 


X-M 


除■妨准基， 

|| = 0 


x ■蜣标4差 
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求解 z 


规在， 为要 计箕其槪率的特定数值求出 z 

前面讲过如何对概率分布进行标准化，从而令 x ~ N ( ji , CT 2 ) 变为 Z 〜 N (0, 1)。 
我们最感兴趣的是实际概率，我们要做的是为需要求概率的数值找出数值 
范围，然后求出这个范围的限值的标准分，最后可以通过正态分布表查找 
求得标准分的概率。 


在我们的例子中，需要求朱莉的约会对象比朱莉高的概率。由于朱莉的身 
高是64英寸，因此我们要求 P ( X >64)， 这个数值范围的限值是64,所以，只 
要算出64的标准分 z , 就能据此求出概率。 


N (71, 20.25) 



这 蚩面扭 相同-值我们仍达 
系 i 遠 Z 的軚值.可 砧 通过 
竹冰 64 故标准 4 r 得电 z 值. 


N (0, 1) 


\\我们需要将这个®彤 . 嚷糸这个 (£ —p 



让我们求出64的标准分。 



a 


64 - 71 
4.5 

= -1.56( 保留两位小数) 



重要绑计 t 

标准分 


所以，根据统计邦男生身高均值和标准差，算得64的标准分 
为-1.56。 


通过下式可求得一个麩值 
鲶标准兮： 


得出这个结果后，我们就可以进入最后 一步： 通过概率表查找 X - 

概率。 ^ 


346深入浅出统计学 






保持正态 


世上没<傻问题 


1 ») :这个标准分和我们以前见过的标准分 是一样 的吗？ 

^ : 是一样的。正态分布不是唯一能用上标准分 
的地方，但是，在允许使用标准正态概率表的情况下， 
标准分特别有用。 


| o ) :经过标准化的数值范围的概率的确等于原来的分 
布概率吗？如何实现？ 

^: 概率相同，而且使用概率表方便得多。 

在我们对原来的正态分布进行标准化时，一切比例都保 
持相同。整个区间既没有增大，也没有缩小，由于代表 
概率的是面积，因此概率也保持不变。 



动动笔 


N (10, 4), 数值： 6 


标准化时间到了。我们将 给你一 个分布和一个数值，请说出标准分。 


2. N (6.3, 9), 数值： 0.3 


3. N (2, 4)。如果标准分等于 0.5, 数值是多少？ 


4. 数值20的标准分是2。如果方差为16,那么均 
值是多少？ 
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动动笔解答 


\解著 


N (10, 4)，数值： 6 


标准化时间到了。我们将给你一个分布 和一个 数值，请说出标准分。 


2. N (6.3, 9), 数值： 0.3 


3. N (2, 4)。如果标准分等于 0.5, 数值是多少？ 

这 是前* 问题的逆运龙.我们已知标准今.需 
要尔康束淤麩值.通过代 入已 知条件可帛得 X . 


4. 数值20的标准分是2。如果方差为16,那么均 
值是多少？ 

这个间題与间题3桐似.代入已知数馇可尔得 M . 


0.5 x 2 



我们彤虫了概率兮讳.完 
成了标准化 . 氺出了 Z . 规在铋 
得出我蜣相辜对象比我高的概 
率了蚂? 
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第 多步： 用方儇易用的概挛表橐找槪率 


既然已经得出了标准分，就可以用概率表求概率了。利用标准正态概 
率表可以査找任何 z 值，进而査出相应概率 P ( Z < z )。 


< 2 )寻子这块面积. 



我们已将需要使用的 
各种槪率表放在附录 
11中》 

翻到 658-659 页，利用正态分布表查找本 
章要求计算的概率。 




如何使用概率表? 


先算 z , 保留两位小数,这就是你要在表中查找的数值。 

査找概率时，需要用第一列和第一行找出数值 Z , 第一列为2值（保 
留一位小数，不进行四舍五人），第一行为第二位小数，两行的交 
点即为概率。 


例如，如想求 P(Z < -3.27)，则在第一列找到 -3.2, 在第一行找到 .07, 


然后找出概率0.005。 

这一行代象.0 7 .评 
2 的第二伖 小軚. 





这是-3 .2 
和 .07 嬈麦点. 
專子 P ( Z < Z ) 

的麩值. 
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使用槪率表 


朱莉要髯的概率就在表中 


让我们回头看朱莉的问题，我们需要求 P ( Z >-1.56), 因此，让我们在概率 
表中査找 -1.56, 看看结果如何。 


在净韦'東尾始附录郝今 这炎代表 z 淤橥二 

可找到正态概車表 . 值小数 0.0 6 妫列 . 


这是代耒 

的行 . 其中 > 
X 是其个獻馑 . 
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.0212 



m 

m 

.0192 


.0183 





.0268 



m 

■ 

.0244 


.0233 

BZB 




.0336 



m 

m 

.0307 


•0294 

Kill 


.0436 

.0427 

.0418 



m 

■ 


■0375 

.0367 



.0537 

.0526 

.0516 



w 


■*aap 



淤羑点，这就炎 
P ( 乙 < Z) 淤數 值， 









•0571 

.0559 



•0793 

.0778 

.0764 

•0749 

•0735 



.0694 

.0681 

EZ3I 





■•’/NM 

.0885 


.0853 


.0823 







.1056 




•0985 

-i.i 

.1357 

.1335 

.1314 

.1292 

• 1271 

.1251 

.1230 

.1210 


.1170 


结果，在概率表中査找 -1.56, 得岀概率0.0594， E 卩 P ( Z <-1.56) = 0.0594，这 


表 7 K : 

息概車队 

=1 - 0.0594 
= 0.9406 

也就是说，朱莉的约会对象比她高的概率是0.9406。 
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保持正态 


通过概率表可查找 P ( Z < z ) 的概率，其中 z 为某个数值。问题 来了： 
你要求的并不总是这一类 概率； 有时候你需要求一个大于 z 的连 
续随机变量的概率，或是介于某两个数值之间的一个连续随机变 
量的概率。这时如何通过概率表求出所需要的概率？ 

为了利用概率表求出需要的结果，需要好好动动脑筋，通常的做 
法是求出一个整体面积，然后减去不需要的部分。 




概率表给出餘 
是这个概率 • 





求解 P ( Z>zJ 


P ( Z > z ) 类型的概率可通过以下方法 求解： 

P(Z > z ) = 1 - P(Z < z ) 


祆们已径利用这个貳 务帛也 
^ ' 了木莉也钩会老高谂 祗率. 


即，将 Z < z 的面积从总概率中去除。 



求解 P ( a < Z<bJ 


这一类概率的算法略微复杂一点儿，但仍然能够得到解答。可通过下 
列算法进行 计算： 

P(a < Z < b ) = P(Z < b ) - P(Z < a ) ^ 




即，算出 P ( Z < b ), 然后将 P ( Z < a ) 面积从其中去除。 



p(Z- < b) 
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世上没有傻问题 


1»): 我曾经听说过“高斯”这个 
术语，它指的是什么？ 

^: 正态分布的另一个名称是 

高斯分布。如果你听见别人在谈论 
高斯分布，那么他们就是在谈论正 
态分布。 

1«): 所有的正态概率表都相同吗？ 

^: 所有的正态概率表都能给 

出相同的概率。不过，概率表的实 
际覆盖范围会有一些变化。 

f 5 ) :变化？什么意思？ 

^: 有的制表和考试委员会为概 
率表设定不同的精度等级，还有一些 
会以略有不同的格式制作表格，但表 
中的信息都是一样的。 

|»): 如果我要参加概率考试该怎 

么办？ 

^ : 首先了解考试中使用的概 
率表的格式，然后看看能不能搞一 
份复印件。 

得到考试委员会采用的概率表后， 
花点时间熟悉熟悉，这样你就能在考 
试到来时轻易过关了。 


世上没布傻问题 

(^):求一个范围的概率似乎有些 
棘手，我该怎么做？ 

^: 关键在于想办法通过概率 
表求出要求的面积。概率表通常只 
给出 P ( Z < z ) 形式的概率，其中 z 为 
某个数值。因此，最大的困难就在 
于把你要求的概率改写成符合这种 
形式的概率。 

如果所计算的是 P(a < Z < b ) 形式的概 
率，即某个范围的概率，则需要查 
找两个概率，一个是 P(Z < a ) 的概率, 
另一个是 P(Z < b ) 的概率，查到这两 
个概率后，用最大的概率减去最小的 
概率就行了。 

f 5 ) :连续分布有众数吗？你能求 
出正态分布的众数吗？ 

^: 有。连续概率分布的众数 

即概率密度最大处的数值。如果画 
出概率密度，则众数为曲线最高点 
处的数值。 

观察正态分布曲线，可以看到最高点 
位于正中央。正态分布的众数为 JJL 。 


| o ) :中位数呢？ 

^ : 一个连续概率分布的中位 
数即 P(X < a ) = 0.5 处的数值，即将 
概率密度曲线下方的面积一分为二 
的数值。 

正态分布的中位数也是 ( JL 。 在处理连 
续概率分布时，中位数和众数并不 
那么常用，期望和方差更为重要。 

1»):什么是标准分？ 

^ : 一个变量的标准分即用这 
个变量减去其均值再除以这个变量 
的标准差的商。这是对正态分布进 
行标准化的一种方法，可令正态分 
布转化为 N (0,1) 分布，从而可以对 
各种正态分布进行比较。在处理正 
态分布时，标准分很有用，因为这 
样一来，你就可以通过标准正态概 
率表查找概率。 

一个特定数值的标准分还说明了数 
值与均值相距多少个标准差，你可 
以由此获悉该数值与均值的相对接 
近程度。 
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保持正态 
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动动笔解答 


斛著 


现在该考考你的概率表使用技术了，看看是否能解答以下概率 
问题。 


1. P ( Z < 1.42)0 

在概車表中查 M 2 可4求出这个概車，结票忌: 
J>{Zj < 1A2) = 0.9222 



1AZ 


2. P (- 0.15 < Z < 0.5 )。 

查找 P (乙 <0. 5 ), 达后減去 ?> (乙 < -0.75) 

1>(-0.15 < Z, < 0.5 )= P(2L < 0.5) - ?>(乙 < -0.7 5) 
= 0.6915 - 0.4404 


= 0.2511 



-.015 0.5 


3. P(Z > z ) = 0.1423。 z 等于多少? 

这个间題略唷 难度： 已知概率，要求 z 值. 
已知？>(乙 > Z ) = 0 J 423 ,即： 

P(Z, < Z) = 7 - 0.7423 
= 0.8577 

接下来要求出啷个 Z 值的概率爸 0. 8577 , 

通过概率耒查虫： 

Z = 1.07 

所4 

P(z, > 1.07) = 0.14Z3 



0.1423 
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保持正态 




44 . 要是穿上我那双 5 ^ 

英寸高鲶高龈鞋，我就窩多 
了，这会禾会彩响我的约会者 
比我窩鲶概车？ > 


朱莉 有一个 问题，当我们计算她的约会对象比她个子高的概率 
时，没有把她的高跟鞋算上。看看你能不能求出朱莉穿上5英寸 
高的高跟鞋时，她的约会者比她高的概率？ 

提醒一下，朱莉身高64英寸 ，X ~ N (71, 20.25), X 为统计邦 
男生的身高。 
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练习解答 



斛著 


朱莉有一个问题，当我们计算她的约会者比她个子高的概率时，没有把她的高跟鞋算上。 
看看你能不能求出朱莉穿上5英寸高的高跟鞋时，她的约会者比她高的概率？ 

提醒 一下， 朱莉身高64英寸， X ~ N (71, 20.25), X 为统计邦男生的身高。 


省朱莉穿上5英寸高淤高跟鞋后.他鲶身高嚏基69英寸.我们需要弟 P ( X > 69). 
我们需要先求？ 78 蛛标准今.这祥彳铋闲概车表查找相应概率. 


X - M 

z .= - 

a 

69 - 71 

_ 4. 5 ^ ''一 方差态 2 0. 25 卤此 立早方 

-2 报.钱是标衫.疮 45 

= - • 

4.5 

= -0.44 (保留雨值小數） 

现在我们已经求出了 Z , 需要谜读氺 P (乙〉 Z ), 即 P (乙 > -0.44). 

T >( 乙〉 - 0.44) = 7 - P ( Z , < -0.44) 

= 1 - 0.3300 

= 0.67 



-0.44 


( S 此，在朱莉穿上 5 英寸高的高跟鞋后，他蜍紿会对象比他窩蛛概車是 0.67. 




保持正态 


案件：缺失的参数 

维尔在芒芒游戏公司工作，他遇到了一个问题。他需要向老板报告 
人们闯过新游戏第一关所花时间(分钟)的均值和标准差。这倒不难, 
可不巧的是，一头恶犬咬掉了他写有概率的那张纸。 


5穸钟 
推琪 



威尔只有3条有用线索。 

| 首先，威尔知道人们闯过第一关所用的时间符合正态分布。 

^其次，他知道一位玩家的闯关时间少于5分钟的概率为 
0.0045 o 


最后，某个人闯过第一关花费的时间少于15分钟的概率是0.9641。 


威尔如何求出均值和标准差? 
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5 分钟推理解答 


破案：缺失的参数 

威尔如何求出均值和标准差？ 

威尔可以使用概率表和标准分得出均值和标准差的 
表达式，然后求解。 

首先，我们知道 P ( X <5) = 0.0045, 从概率表上 
看， P(X < z ,), 其中 Zl = -2.61, BP 5 的标准分为 -2.61 
如果将这个结果代入标准分公式， 得到： 

5 - 

-2.61 =- 

a 

类似地， P ( X < 15) = 0.9641, 即15的标准分等于 1.8, 我们 得到: 


这样我们就得到两个等式，可以求解 p 和<1。 

我们现在可4 斛 
这个方 雅徂. 

用第二个等式减去第一个等式 ，得： 



5 穸考中 



1.8 ct + 2.61 a =15-| x -5 +jx 
4.41 ct = 10 
a = 2.27 

将以上结果代人第二个方程 ，得： 

1.8 x 2.27 = 15 - k 

fji = 15 - 4.086 
=10.914 

即： 

M . = 10.914") 这就 IP 和 0 換值 • 

a = 2.27 \ ^ 
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保持正态 


从那认后，他们聿裼地生话在一起 


概率算得很准，朱莉在上一次“相亲”中成功了！为了保证未来的灵 
魂伴侣能和她的鞋子般配，朱莉挑出最高的高跟鞋穿上，对他进行测 
试。还有，当她来到约会地点的时候，他已经在那儿了，她不用等呢。 



他告诉我蛛第一件穿就是他唷多 
喜欢我妫鞋吝.我们是天法一对. 


我们无注完金确交他说 
蜣是敖 炎钩会对象 
禾边，至少他很幸福 • 


玎事情尚来到此为止 


o 


要点 - 

■ 数据由单个数值组成。正态分布的形状为对称的钟 ■ 通过在概率表中查找标准分可求出正态概率，概率 
形，其定义为 N(M, a 2 )。 表给出的是等于或者小于这个数值的概率。 

■ 求正态概率时，首先要确定所需要的概率范围，然 
后求出这个范围的限值的标准分，算式 如下： 

z =— 其中 Z ~ N (0, 1)。 

CT 
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9 賴__ 命 

★ 超越正态命 



但愿所有的概率分布都是 IE 态分布。 

有了正态分布， 日子好过多了 一既能一口气查出整个范围的概率，又能留下点时 
间玩游戏，谁还会花时间一个一个地计算概率呢？在本章中，你将学习如何闪电般 
解决更复杂的问题， 还将懂得如何将正态分布的便利运用 到其他概率分布上。 


进入新的篇章 361 


来吧，坐上爱情过山车 


爱惰就像过山车 


如今婚礼筹办市场生意红火，为了让顾客对这个特别的日子刻骨铭心，德克 
想出了一个好主意。干嘛一定要在地面上办婚礼呢？坐过山车不是更好吗？ 

德克对这个“爱情过山车”创意很有信心，认为只要能过健康和安全这一 
关，一定能挣大钱。 


我唑歧唑歧歧唑咗! 







?r> 










我得确保新郎和浙旅的琮 
合钵重 禾趄过 3 S 0 碚.你 
觉得铋帮上 忙吗？ 


在大刀阔斧开展此务之前，德克需要确保他所设想的特别座驾能 
够承载新郎和新娘的重量，所以请你看看能不能帮个忙。 

他所设想的座驾能够承载最多380磅的重量。新郎和新娘综合体重不 
超过这个重量的概率是多少？ 
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超越正态 


双双登上爱惰 过山车 


在开始计算之前，我们需要了解统计邦新郎新娘的体重分布情况——包 
括结婚礼服在内。新郎和新娘的体重都符合正态分布，新娘的体重符合 
N (150, 400), 新郎的体重符合 N (190, 500), 体重单位为“磅”。 



150 


新雔~从〖50, 400) 


我们需要设法通过这两个概率分布算出一对新郎新娘的体重低于过山 


新郎 ~ N(<90 , 500) 



190 


车允许的最大载荷的概率。如果算出的概率足够高，我们就可以满怀 


信心 地说： 坐过山车举行婚礼的想法是可行的。 



要是知道徂合后蜣概 
率今沛，就铋计真这个概 
率了.那么徂合后的概車 
兮讳是升么裨 吝呢？ 




你觉得我们该怎样求出新郎新娘综合体重的概率分布？你 
觉得会是哪种概率分布？为什么？ 
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正态分布两两相加 


正态新媳 + 正态新邰 

让我们先仔细看看新郎和新娘的体重分布情况。 

如你所知，新郎和新娘的体重符合正态分布，如下 所示: 


新錄4 新郎4 


㈣ r 


/ 






㈣ 




190 


不过，我们真正要求的却是新郎和新娘的综合概率分布，即，要求新 
郎与新娘体重之和的概率分布。 


新娘体重+新郎体 重〜？ 

假设新娘和新郎的体重互相独立，则分布形状应与下图有几分 相似: 


新錄+新郎 M 






x ： 


孓边，琮合钵重变化不小 • 
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超越正态 


终究还是体重问題 

还记得我们最开始讲到连续数据的时候吗？那时我们讲过身高、体重之类的数 
据往往符合什么分布来着？一我们那时讲到，身高、体重之类的数据是连续数 
据，且往往符合正态分布。 

这一次，我们研究的是一对新婚佳偶的综合体重。综合体重也是体重，同时我 
们已经知道体重的分布 趋势； 综合体重依然是连续数据，而且，综合体重依然 
符 合正态 分布。这就是说，新娘加新郎的体重符合正态分布。 

新娘加新郎的综合体重符合正态分布这个结论对我们大有用处。这说明我们可 
以像前面一样，利用概率表査找概率， B 卩，我们可以查出综合体重低于380磅的 
概率——这是爱情过山车的要求。 

只有一个问题一在动手查找概率之前，我们需要知道新娘新郎综合体重的均 和 新郎淤惊合体 f 

值和方差。该怎么求呢？ ^■符合丘态兮奇. 

/ 衫差炎多少和 

新娘+ 新郎〜 N (?, ?) 


动笔 


现在考考你的记忆力。还记得下列公式的简捷算法吗？假定 X 
和丫是独立变量。 


1. E(X + Y) 


2. Va「(X + Y) 


3. E(X-Y) 


4. Var(X-Y) 
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动动笔解答 


解奢 

.E(X + Y) 

e(x + 丫 ）= e(x) + e ( 丫） 


3. E(X-Y) 

^(x- y) = e(x) - e ( 丫） 


现在考考你的记忆力。还记得下列公式的简捷算法吗？假定 X 
和丫是独立变量。 

2. Var(X + Y) 

Vflr(X + 丫 ）= Vflr(X) + Vflr ( 丫） 


4. Va「(X - Y) 

^-VVflr(X - 丫 ）= Vflr(X) 4- Vflr ( 丫） 

计〜用以旬 



我看禾出这麥简捷龙?主唷 
计么胳处，它们都是离散 
麩据鲶公式，而我们现在处娌 
鲶是逭续麩掂. 


这些简捷算法也适用于连续数据。 


我们最初讲到这些简捷算法的时候，用的是离散数据。幸运的是，同样的计算规则 


和简捷算法也适用于连续数据。 





你认为我们该怎样用这些简捷算法求出新郎新娘体重之和的概率分布？ 
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超越正态 


綜含体重符含#种分布？ 


前面已经讲过，新郎新娘的综合体重符合正态分布，这说明我们可以利 
用概率表查找综合体重低于某个特定值的概率。 


让我们试试用 X 和 Y 表示新郎新娘的体重分布，如果用 X 代表新娘的体重, 
用 Y 代表新郎的体重，则 X 和 Y 是独立的，然后需要求出 R 和 ex , 其中： 


X + Y - N(|I, a 2 ) c 


扑方差 A 


■斯槔婕钵 *t + 新郎 嬈体售 


也就是说，在进一步进行计算之前，我们需要求出 X + Y 的期望和方差，怎么求？ 

査看前一个练习的答案，可以看出，当我们处理离散概率分布时，只要 X 和 Y 是 
独立变量，就可以用下列算式计算 E(X + Y ) 和 Var(X + Y ): 


E(X + Y ) = E ( X ) + E ( Y ) 且 Var(X + Y ) = Var ( X ) + Var ( Y ) 

于是，只要知道 X 和 Y 的期望和方差，就能用上面的式子计算 X + Y 的期望和方差。 
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深入探讨 x + y 和 x-y 




n + y 粮率 穸布缈 麵著 


在研究综合正态变量的时候，想办法求岀 X + Y 的分布是十分有用的。 
如果独立随机变量 X 和 Y 符合正态分布，那么 X + Y 也符合正态分布。另' 
外，你还可以使用 X 和 Y 的均值和方差计算 X + Y 的概率分布。 

为了求出 X + Y 的均值和方差，可以使用离散概率分布的相同计算公式， 


即， 如果： 


X ~ N ( m _ ct x 2 ) 且 Y ~ N (| jL y , a /) 


对方娩棟率波硝彩响 ，则 
兩个构至独立淤. 


N(|J, a 2 ) 



犄X和丫妫劝值构 加可糌 i，Jx+Y 
_值，矣_. _和丫換方 

差构加可得到 X+ 丫蜣方差. 


M = M x + M y 


a 2 = a 2 + cj 2 

X y 


即 ， X + Y 的均值等于 X 的均值加上 Y 的均值 ， X + Y 的方差等于 X 的 
方差加上 Y 的方差。 

查看以下草图，注意到 X + Y 的方差的特点了吗？ 


也票 x 和丫是独立重 •# . 
则可” i 使用这安简捷 
tit ——这掸日 备就胳 
过多了. 


X ~ N ( M . a /) 




X +Y-NOix + l^ a x 2 + a/) 



X + Y 的方差大于 X 的方差，也大于 Y 的方差，这使得 X + Y 的曲线 
比 X 的曲线和 Y 的曲线都拉得长，这一点对于任何正态 X 和 Y 都成 
立。在将两个变量相加之后，实际上增大了变异性，于是使得分布 
形状 拉长； 随着图形拉长，图形还会变得更扁，这样才能使图形下 
方的总面积仍然为1。 
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x + y 的概率计算 

求解概挛 


既然知道如何计算 X + Y 的概率分布，就让我们看看如何利用 


这个概率分布计算概率。步骤 如下： ^我们 喋要钊 + 

❶算出分布_ ^ 方展. 


知道今沛和范凼后 ， 3 
即可迸行标准化 



格分布标准化 


o 查找概率 




率象寺查我撖隼. 


感觉似曾相似？这些步骤和上一章中的正态分布的 
计算步骤是一模一样的。 


世上没€傻问题 


1»): 告诉我，为什么我们需要求 
X + Y 的分布？ 

^: 我们所求的是新郎新娘综 

合体重低于380磅的概率，即需要 
知道综合体重的分布情况。我们用 
X 代表新娘的体重，用 Y 代表新郎的 
体重，因此需要求 X + Y 的分布。 

l ' 5 ) :你说我们可以用概率表查 
X + Y 的概率。怎么做呢？ 

^: 和以前的做法一模 一样： 

找出概率分布，算出标准分，然后 
在概率表中查找。 


查找 X + Y 的概率和查找别的变量的概 
率并无区别，只要求出标准分，即可 
查找出所求概率。 

f 5 ) :这么说，我们用来计算离散 
数据的简捷算法同样适用于连续数据？ 

^ : 不错，是这样。这样就可以 
方便地将随机变量综合起来，求出其 
分布方式，进而解答更复杂的问题。 

关键要记住，只有在变量为独立变 
量时，这些简捷算法才适用。 


f 5 ) :能告诉我“独立”是什么意 
思吗？ 

^ : 如果两个变量互为独立变 
量，则它们相互之间对对方的概率 
没有影响。在我们所举的例子中， 
我们假定新娘的体重不受新郎的体 
重的影响。 

|»| :如果 X 和 Y 不独立呢？情况会 
如何？ 

^ : 如果 X 和 Y 不独立，则我们 
无法使用这些简捷算法，而需要大 
动干戈地求出 X + Y 的分布，这样才 
能得出 X 和 Y 之间的关系。 
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超越正态 




通过下列3个步骤求出新娘和新郎的综合体重少于380磅的概率。 


1. X 为新娘体重，丫为新郎体重，且 X 〜 N (150, 400), Y - N (190, 500)。根据以上信息，求出新郎新娘综合 
体重的概率分布。 


2.然后，利用所求出的概率分布，计算380磅的标准分。 


3. 最后，利用标准分查出 P(X + Y < 380), 
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动动笔解答 

r ^动动笔 
\斛箸 


通过下列3个步骤求出新娘和新郎的综合体重少于380磅的概率。 


1. X 为新娘体重， Y 为新郎体重，且 X 〜 N (150, 400), Y - N (190, 500) „根据以上信息，求出新郎新娘综合 
体重的概率分布。 

我们需要弟 X + 丫鲶概率今沛，糸了彤出 X + 丫蜣均值和方差.我们将 x 和丫各自鲶均值和方差加起束， 

X + Y~ N(340, 900 ) 


2.然后，利用所求出的概率分布，计算380磅的标准分。 


_ U + |j) - m 

CT 

380 - 340 
30 
40 
30 

= 1.33 (保留兩值小數) 



入—卩 a , 

迷记得我 们彳前 用过晌 z = —吗？ 

(J 

这一攻_叙们用的是/+丫蜣慨率兮邡. 

(x + y ) - ^ 

函此 z =- - -- 


3. 最后，利用标准分查出 P(X + Y < 380)。 

也票我们在标准正态概率表中查找 IB , 得到概率 0.9082 ，即: 
p(x + 丫 < 380) = 0.9082 
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超越正态 



练 g 


朱莉的媒人又忙开了。 一名男 子至少 比一名 女子高5英寸的概率是多少？ 

在统计邦，身高以英寸计量，男性身高的概率分布为 N (71,20.25), 女性身高的概率分布 
为 N (64,16)。 
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练习解答 



斛著 


朱莉的媒人又忙开了。 一名男 子至少比一名女子高5英寸的概率是多少？ 

在统计邦，身高以英寸计量，男性身高的概率分布为 N(71,20.25), 女性身高的概率分布为 
N(64,16). 


让我们用 X 代耒男蚀身高.用丫代表女蚀身高 ，即： X ~ N (7 J , 20.25), y ~ N ( 64 , 16 ). 
我们需要书出一名男吝比一名女吝至少高 5 英寸姥概率，即需 要求： 

P(X > Y + 5) 

成 

P ( X - Y > 5) 


基了彤出 X - 丫埝 均值和方差，我们用 X 的均值減 去丫的 均值. 得到: 
X - Y ~ N ( 7 , 36.25) 


我们需要求出5英寸蜍标 准今： 

Oc- y) - 4 
z = - 

CT 

5-7 

6.02 

=-0.33 (保留雨值小數) 


子是可4求出 P ( X - 丫 >5). 

P(X -丫 > 5) = f - P(X -丫 < 5) 
= 1 - 0.3707 
= 0.6293 
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超越正态 


E 多人想坐爰惰过山车 


看来，新郎新娘的综合体重小于过山车限额载荷的几率很大，不过, 
为什么仅限新郎新娘乘坐过山车呢？ 



让我们再加上一辆轿车，另外载上四位婚礼成员，看看结果如何。这 
些成员可能会是老爸、老妈、伴娘、伴郎或新娘新郎希望共同登车的 
任何人。 

轿车的总载重量为800磅，假定一位成年人的体重分 布为： 

X ~ N(180, 625) 


其中 X 代表一位成年人的体重，单位为“磅”。可是如何计算4位成年 
人的综合体重低于800磅的概率呢？ 



动动膊 



回头想想计算期望和方差时用过的简捷算法，独立观察结果和线性变换之间有何差 
别？二者分别对期望和方差有何影响？哪一种算法更适合解决这里的问题？ 
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线性变换与独立观察结果 


线性变狳锚逑了数据的基本 S 化 


让我们先看 4X 的概率分布，其中X为一位成年人的体重。 4X 是否适合描 
述4位成年人的概率分布？ 


4X 的分布其实是X的一个线性变换，是X进行 aX + b 变换的结果，其中 a 
等于4, b 等于0,这与我们先前在离散概率分布中遇到过的变换类型完全 
相同。 

线性变换描述的是概率分布中的数值在大小方面的基本变化， B 卩， 4X 其 
实描述的是一个成年人的体重放大四倍后的结果。 

IX 2X 


4嫌料洱描迷狀 〆 
个成界人鹼钵嗜放夂四 
倍后祕系. 体衫 1 


4X 



邡么线性変狳的分布是怎#的？ 

假定你有一个X的线性变换，其形式为 aX+b, 其中X ~ N(^ l , a 2 ), 由于 X符合 
正态分布，于是 aX + b 也属于正态分布。但期望和方差是多少呢？ 






柄是4个4卑人的体重 
禾是一个成年人的体售鉍俺 


让我们先算期望。在讲离散概率分布的时候，我们发现 E(aX + b) = aE(X) + b。 
现在， X 符合正态分布且 E(X) = |x , 于是我们得出 E(aX + b ) = a jjl + b 。 


方差的处理方法与此相似，在讲离散概率分布的时候。我们发现 Var(aX + b) = 
a 2 Var(X ), 且这里的 Var ( X ) = < j 2 , 于是得出 Var(aX + b ) = a 2 cr 2 。 


合并以上两个结果， 得到: 



aX + b ~ N(aM + b, a 2 a 2 ) 


新方差支 ㈣ 杉 M 衫换象扭. 


即，新均值为 ap +b , 新方差为 ftr 2 。 那么独立观察结果是多少? 
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超越正态 


而独交难察结果摊迷的是你有多少数值 

我们实际需要计算的是4位独立成年人的综合体重的概率分布，而不是对 
每一位成年人的体重进行变换。即，我们需要算出 X 的4个独立观察结果 
的概率。 






X X + X 

每一依成年人都炎一个 
独立规察结系. 


每一位成年人的体重都是 X 的一个观察结果，这意味着每一位成年人的 
体重都通过 X 的概率分布进行描述。我们需要算出 X 的4个独立观察结果 
的概率分布，也就是要求以下 概率： 








X 4 
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求期望和方差 


独交难察结果的期望和方差 

在讲到离散随机变量的独立观察结果的方差和期望时，我们曾经 发现: 
E ( X , + X 2 + … X n ) = nE ( X ) 


及 


Var ( X , + X 2 + ... + X n ) = nVar ( X ) 

如你所料，相同的算法也适用于连续随机变量， BP ， 如果 X 〜贝 IJ : 

X, + X 2 + …+ X n ~ N(n|i, na 2 ) 


世上 M 傻问题 


1») : 线性变换和独立观察结果之 
间有何差别？ 

^ : 线性变换影响概率分布中的 
基本数值。例如，如果你有一根特定 


1»): 我真的需要分清楚哪是哪吗？ 
这有什么区别？ 

答： 你必须分清楚哪是哪，因 
为这会影响概率计算。对于线性变 




要点 


■ 如果 X ~ N ( m x , ^ , 
丫 ~ N ( M y , CT 〜)， 且 X 和 Y 
为独立变量，贝 U : 


长度的绳子，那么，进行线性变换会 
影响绳子的长度。 

独立观察结果影响所处理的事件的数 
量。例如，如果一段绳子有 n 个独立 
观察结果，则所讨论的就是 n 段绳子。 

通常，如果数量发生变化，则所面对 
的是独立 变量； 如果基本数据发生变 
化，则所面对的是变换。 


换和独立观察结果，均值的计算方 
法是相同的，但方差的计算方法有 
很大差别。如果存在 n 个独立观察结 
果，则新方差是原方差的 n 倍。如果 
将概率分布按照 aX + b 的形式进行线 
性变换，则新方差为原方差的 a 2 倍。 

1»): 我能在同一个概率分布中既 
拥有独立观察结果又拥有线性变换吗？ 

^: 可以。在计算概率分布的时 

候，只要遵守方差和期望的基本计 


X + Y-N(m x + M y , a^ x + 
X-Y~N(|i x - M y , 々 CT y 

_ 如果 X ~ N( m ， a 2 ) 且 af 口 b 
都是数字，贝 |J: 

aX + b - N(a m +b, a 2 a 2 ) 

■ 如果 W ，…, X^X 的独立 
观察结果，且 X~N( m , a 2 ), 
则： 

X, + ^ + • • • + ^ ~ N(n m , n a 2 ) 


算规律即可。离散概率分布和连续 


概率分布的规律是相同的。 
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超越正态 


让我们为德克解答爱情过山车问题。4个成年人的综合体重小于800磅的概率是多少？假定 
每个成年人的体重分布都符合 N(1 80, 625)。 
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练习解答 




斛著 


让我们为德克解答爱情过山车问题。4个成年人的综合体重小于800磅的概率是多少？假定 
每个成年人的体重分布都符合 N ( 180, 625)。 


也票我们用 x 泉示一个成年人淤钵重，则 x ~ Naso , 625 ).我们需要先尔出 4 个成年人鲶钵重的 
今沛精况.易7求出这个新兮沛蜍珀值和方差.我们将 x 的珀值和方差乘子是 得出： 

X , + X 2 + X , + X 4 ~ N (720, 2500) 


7 ^ * P ( x , + X 2 + X , + X 4 < 800). 我们先求标 准兮: 

入 - 4 
Z = - 

a 

800 - 720 
50 

80 

50 

= 1.6 


在标准正态概率表中查看这个數值，得到 0.9452 ，即: 
P ( X f + X 2 + X 3 + X 4 < 800 ) = 0.9452 
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超越正态 


打断 — T 



太家崧，欢迎再次观看说计邦热门智力节 
目“铐犄裏嬴嬴 " ，今晚鲶肀目更精形. 


381 




我们今天糸你准备了更多搞饯难題， 让我 们链续 
加油.在这一轮， "0 中，我打其间你扣个间题，你需 
要答对30题4上豸铋进入下一轮比赛.要禾就领了麩 
励淇离场.每一个间题唷四个备选答案.这一轮鲶标 
题是 ■■僅 我愈皮多一瘙”.柷你胳运/ 



动动笔 


以下是第三轮比赛的前5题，都是关于节目主持人的。 















超越正态 


捿着玩，还是转身走？ 

和以前一样，你不可能这么了解节目主持人，以至于能够答对有关他 
的所有问题，看来你又要随机回答问题了。 

那么，在40个问题中答对30个问题以上的概率是多少呢？我们将根据 


你该怎样求出在40个问题中至少答对30个问题的概率？要经过 
哪些步骤才能得出正确答案？如何求均值和方差？ 

我们并不要求你算出概率，你只要说出求解步骤就行了。 


这个概率决定是去还是留。 


% ^动笔 
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动动笔 
斛著 


你该怎样求出在40个问题中至少答对30个问题的概率？要经过 
哪些步骤才能得出正确答案？如何求均值和方差？ 

我们并不要求你算出概率，你只要说出求解步骤就行了。 


共唷 40 道题 g , 也就是说斿省 40 攻试答机会，每一攻试答或是答对.或是答错.而且.我们想弟出答对一 

定數1■鲶题目鲶概率，态此需要使用二项今沛. 4^ = 40,由子每个间题都省4个候选答案. 

gP0.25. 

也票 X 忌我们答对的题麩，则我们要彤淤是 P(X> 3 0), 即我们必领将 P(X= 3 0) 直至 p(x = 4 0) 蝣概率真出束. 
再加总. 


我们可4用〜 P 和气真虫均值和方差.其中 q 
= 70, 方差 = 40 X 0.25 X 0.75 = 7.5. 


<- P ， 均值筹子 Ap , 方差鲁子叫气.子是得出幼值= 40 x 0.25 




使用二项分布会带来繁重的工作。 

为了求出答对30题以上的概率，我们需要把11个单独算得的概率加 
起来一其中的每一个概率都来之不易，计算过程中极易出错。 


我们需要找到一个更简便的算法计算二项分布。 
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正 态分布出手相救 


我们已经看出，二项分布会让我们的日子不好过，计算繁复艰深且容易出 
错，时间哗啦啦流逝，换来的却是错误的答案。 

似乎绝望了？别担心，还是有容易的办法的。 

在某些情况下，可以用正态分布近似代替二项分布。 




在某些情况下，泊松分布可以近似代瞽二项分布，不过，在另一些情况 
下，正态分布也可以近似代替二项分布。 

懂得用其他分布近似代替二项分布十分有用，它能化繁为简。在某些情况下, 
泊松分布可以帮助我们计算一些繁杂难解的概率。 

在另一些情况下，则可以利用正态分布近似代替二项分布。这样做好处极大, 
我们可以用正态概率表方便地査找需要求解的概率，从而免去种种计算。 

我们只需弄清楚在哪些情况下适合进行这种替代就行了。 





我们在此 前一段 时间讲过如何使用泊松分布近似代替二项分布，在哪 
种情况下适合进行这种代替？ 
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• 晷 ; 奐二 ■ 宙对 〜 ) 牙 '^ro > ^os ^ 



超越正态 
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化身穸布 



%下丧—些二項穸冻， n 和 p 势值奢异。 
侪的任旁龙 假黎乍 己龙丼 中的尹 本， 
并执 出狎—个 尹布敢 筮令用 JE 选尹布 
_ 进行铤伽代笮。 仔缈現 穿毎种 
V 尹布的步 状， 谀谀卿 一个闺矽 
^敢符令 JE 选。 




在这几种兮 洚中. 这个兮讳最造合用正态兮邡近似代替.老 
!/!_ = 20且 p = 0. 5 时，今讳形状与正态4、讳的形状最态相似 . 



0 1 2 3 4 5 6 7 8 9 10 \ 01 2345678 9 1011121314151617181920 
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超越正态 


何时阁正态分布近似代替二顼分布 


在某些情况下，二项分布的形状看上去和正态分布的形状十分相似，在这样 
的情况下，我们可以用正态分布代替二项分布，得出与二项分布的概率极其 
近似的结果。我们可以不再大量计算单个概率，而是在标准概率表中查找整 


个范围的概率。 

那么在哪些情况下可以这么做呢？ 

在上一个练习中我们看到，当 p 在 0.5 左右、 n 在20左右时，二项分布的外形与 
正态分布的外形十分相似，一般说来，当 np 和 nq 双双大于5时，可以用正态 




分布近似代替二项分布。 


求解均值和方差 

为了能用正态概率表查找概率，我们需要知道均值和方差，以便算出标准差。均值和方差可 
以直接从二项分布得出，在最初讲到二项分布时，我们 发现： 


fx = np 且 < 

我们可以把以上数值作为正态分布的 参数: 


a 2 = npq 


np 
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黨要魏计 t 

二顼分布的近似 



某的舰 
餅 I ：为 np>10 
及 nq > 10 。 

如果你即将参 


• fo 票 X — B.(n-, p) , 且 i/vp > 5 ,叫 > 5, 则可 "i 使用乂 ~ N (t/vp, 
呷 q ) 近似代替二项今沛. 


加统计学考试，一定要问清 
楚考试委员会的要求。 
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強化绣勻 - 

在应用正态分布解决"转椅臝嬴臝”的40个问题之前，让我们先用一个简单问题验 证一下 


这种方法的有效性。让我们试着算 一算： 在12个问题中答对5题或5题以下的概率，其中 
每个问题只有两个备选答案。 

让我们首先用二项分布进行计算，即求出 P ( X <6)， 其中 X ~ B (12, 0.5>。 
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超越正态 


现在，让我们用二项分布的正态近似法进行计算，看看是否能得出相同答案。首先，如果 X ~ B (12, 0.5)， 
我们可以用哪个正态分布进行近似计算？弄清楚这个问题后，请问 P ( X <6> 是多少？ 
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強化练习斛著 


在应用正态分布解决"转椅赢赢贏”的40个问题之前，让我们 先用一 个简单问题验证一下 
这种方法的有效性。让我们试着算 一算： 在12个问题中答对5题或5题以下的概率，其中 
每个问题只有两个备选答案。 

让我们首先用二项分布进行计算，即求出 P ( X <6), 其中 X ~ B (12, 0.5)。 


各个概率闲下列公式进行 计真： 


P(X = r) = Wcf 


其中 


"•C 


w ! 


y\ (in. - r) l 


我们需要求 P ( X <6), 其中 X ~ B (72,0.5). 易比.需要彤 
P(X = 0) 至 P(X = 5 ). &后将其得蜣所唷概車加起来. 

各个概車忌： 


P(X = 

0) = 12 c 0 

X 0.5 ,2 

= 0.5 ,2 



P(X = 

1) = ,2 C, 

X 0.5 X 

0.5 11 = 

72 x 

0.5 ,2 

P(X = 

2 )= 

= 12 c 2 

x 0.5 2 

< 0.5 10 = 

66 

x 0.5 12 

P(X = 

3)= 

= 1z c 3 

x 0.5 3 

0.5 9 = 

220 

x 0.5 1Z 

P(X = 

4)= 

= ,2 c 4 

x 0.5* 

0.5 8 = 

495 

x 0.5, 2 

P(X = 

5) = ,2 C 5 

x 0.5 5 

< 0.5 7 = 

792 

x 0.5 12 


将4上概率加起束，得刭总概車态： 

p(x < 6) = (f + 72 + 66 + 220 + 495 + 792) x 0.5 12 
= 1586 x 0.5 12 
= 0.387 ( 保留三值小數） 
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超越正态 


现在，让我们用二项分布的正态近似法进行计算，看看是否能得出相同答案。首先，如果 X ~ B (12, 0.5>, 
我们可以用哪个正态分布进行近似计算9弄清楚这个问题后，请问 P ( X <6) 是多少？ 


z , 0 . 5 ), = 0.5. q = 0.5, 恰銮淤近似今讳态 X~ N (呼 ，呷 q), 也就是 X~ N)(6, 3). 

我们要帛 P ( x < 6 ), 所 "i 先针其标 准差： 



vT 


= 0 

查概率耒，得： 

P(X < 6) = 0.5 




两种概率计算方法得出了截然不同的结果。 

通过二项分布算得的 P ( X < 6 ) 等于0.387,而通过正态分布算得的结果为0.5。 
我们倒是可以用正态分布代替二项分布，但是，结果不够接近。 





你觉得错在哪里呢？我们该如何进行修正？ 
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爯谈正 态近似 

错在哪里？让我们仔细研究这个问题，看看能否发现蹊跷，能否想出办法进 
行处理。 

首先看概率分布 X ~ B (12, 0.5), 我们想求出答对的问题不足6个的概率，并已 
通过计算 P(X < 6) 获得答案。 



然后我们用 X ~ N (6, 3) 对这个分布进行近似，根据需要，为了求出二项分布的 
概率 P ( X <6)， 我们用正态分布计算 P ( X <6): 



进一步仔细观察两种概率分布。虽然不易察觉，但两者之间确实存在重大差 
别： 我们分别用于计算两个概率的两个范围略有不同。在计算正态分布的时 
候，我们使用的实际范围略微大一些，这正是概率变大的原因。 

下一页将详细讲解这个问题。 
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超越正态 


二顼分布是离殽分布，正态分布则是绛锿分布 

我们在对前面的两种概率进行计算时忽略了一件事一没有考虑到其中一种分布是 
离散分布（二项分布），而另一种分布是连续分布（正态分布）。这很重要，因为 
我们所用的概率范围会大大影响最终概率。 

以下在同一张图上体现了 X ~ B (12, 0.5) 和 N (6, 3) 这两种概率分布。我们特别指出了 
正态分布所用概率范围超出二项分布所用范围的部分。 



你能看出问题所在吗？ 

当我们从一个离散概率分布中取出一些整数，并将这些整数转化为连续标度时，我 
们所观察的并不仅仅是那些精确的孤立数值，相反，我们观察的是由多个数字形成 
的范围，这些数字经过取整，得到的正是我们取用的那些精确的离散整数。 

让我们以离散数值6为例，当我们将数字6转化成一个连续标度时，我们需要考虑所 
有取整后等于6的数字， B 卩，从 5.5 到 6.5 的整个数字范围。 





5 5.5 6 6.5 7 


这对于我们的概率问题有什么影响呢？ 


此前我们试着用正态分布近似计算答对题数在6以下的概率时，没有注意到离散数值 
6转变成了连续标度。可实际上，离散数值6包含了从 5.5 到 6.5 之间的一个范围，因此, 
我们不应该计算 P(X < 6)，而应该试着计算 P(X < 5.5)。 


这种调整被称为 连续性修正。 在将离散数值转换为连续标度时，所作的小幅调整就是 
连续性修正。 
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在 计篝近 似值之前先迸行连续性修 正 


让我们试着求出 P(x < 5.5), 其中 X~N(6, 3), 看看这个概率与答对 5 题或 5 题以下的 
概率的近似程度如何。之前我们已经利用二项分布求出目标概率为 0.387 左右。 

让我们看看正态分布得到的结果的近似程度有多大。 

我们想求 P(X < 5.5), 其中 X ~ (6, 3), 让我们先算标准分。 

X - |X 
Z =- 

a 



5.5-6 

= -0.29 (保留两位小数) 


看看这彘个楝车，的 
硝十兮边似，看來遠 
读性轉正戒功了 • 


我们想求面积 Z<-0.29 的概率，于是查找标准正态概率表，得到概率为 0.3859 。即： 
P(X < 5.5) = 0.3859 — 


这个概率和我们用二项分布求得的概率十分近似——之前用二项分布算得的概率为 
0.387, 因此正态分布得到的是十分近似的结果。 


I _ S 


要点 


在一些 特定情况下，可以 用正态 
分布近似代替二项分布。 如果 

X ~ B ( n , p ), 且 np >5, nq > 5, 
则可以用 X ~ N ( np , npq ) 近似代 
替 X 。 


如果用正态分布近似代替二项分 
布，则需 要进行连续性修正， 这才 
能确保得到正确的结果。 
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超越正态 


_ 逢续性修疋缈缈著 

使用正态分布近似代替二项分布有一个技巧，即务必进行合适的连续性修正。如上 
所见，所选概率范围的小小变化会导致实际得到的概率出现重大误差。听起来这似 
乎不是什么了不起的大问题，可是，使用错误的概率将会导致做出错误的决策。 



让我们看看针对各种概率问题需要使用的各种连续性修正。 


<型概率的求解 


在计算 P(XS a ) 这种形式的概率时，关键是要确保所选择的范围中包含 
离散数值 a 。 在一个连续标度上，离散数值 a 会增长到 ( a + 0.5)。这就是 
说，如果使用正态分布求 P ( Xsa )， 则实际上需要计算 P ( X < a + 0.5), 以 
此得出近似值，换句话说，你要增加一个额外的0.5。 


>型概率的求解 

在计算 P ( X 2 b ) 这种形式的概率时，一定要确保所选择的范围中包含离 
散数值 b 。 在一个连续标度上，离散数值 b 会减小到 ( b - 0.5)。这就是说， 
你需要使用范围 P ( X > b - 0.5), 这样才能确保该数值位于这个范围内， 
换句话说，你需要减去一个额外的0.5。 



“介子”型槪车的求蘚 

在计算 P ( asXsb ) 这种形式的概率时，需要进行连续性修正，以便确保 
a 和 b 均包含在内。为此需要将两端的范围均扩展0.5。为了使用正态分 
布近似计算这个概率，我们需要求 P ( a -0.5 < X<b + 0.5), 这正好是以 
上两种概率类型的综合。 
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世 ilM 傻问题 


f 5 ) :用正态分布近似计算二项分 
布的确能节省时间吗？ 

^: 可以节省大量时间。计算 
二项概率时，通常必须计算大量数 
值的概率，因此十分费时，没有什 
么方法能够简便地计算一个数值范 
围内的所有二项概率。 

如果用正态分布近似计算二项分布， 
那就快多了，你可以在标准表中查 
找概率，一口气把整个数据范围的 
概率算出来。 

(») : 确实能得到精确结果吗？ 

没错，在大多数情况下都 
足够精确。但要 记住： 需要进行连 
续性修正。如果不进行连续性修正, 
则结果的正确性将下降。 


|»): 怎么对<和>进行连续性修 

正？像 S 和2—样进行处理吗？ 

^ : 有差别的，这要看你要包 
含哪个数值，要排除哪个数值。 

在用 S 和2计算概率的时候，你需要 
确保不等式中的数值落在已知概率 
范围之内。因此，假如要计算 P(Xs 
10)，则需要确保数值范围中包含10, 
即需要考虑 P ( X < 10.5) o 

在用 <或>计算概率时，你需要确保 
不等式中的数值落在已知概率范围之 
外。即，假如要计算 P ( X <10), 则需 
要确保数值范围中不包含10,即需 
要考虑 P ( X < 9.5)。 


f 5 ) :正态分布和泊松分布都能作 
为二项分布的近似，我该用哪一个？ 

^ : 这要看具体情况。如果 x ~ 
B ( n , p ) ,当 np > 5且 nq > 5时，则使 
用正态分布近似代替二项分布。 

如果 n > 50且卩 < 0.1, 则可以使用泊 
松分布近似代替二项分布。 


记住：在用正态分布近愀代替二顼分布时，必頻逬行连续牲 嫁正。 
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超越正态 





你的任务是从奇妙池中捞出公式因子， 
将这些因子放入计算式中的横线 
上，目的是为每一种离散概率范 
围提供正确的连续性修正。同一 
因子可以多次使用，不必使用所 
有因子。 


X <3 —— 
X 〉3 —— 

X 彡3— _ 

X 彡3 — _ 

3 ^ X < 10—► 


X = 0 — _ 

3 < X < 10 — 

3 < X ^ 10 — 

X>0— _ 

3< X < 10 —► 


说明：从池中捞出的 
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眘妙港斛奢 




你的任务是从奇妙池中捞出公式因子， 
_ 将这些因子放入计算式中的横线 
j [上， 目的是 为每一 种离散概率范 
围提赃細连续性赃《同- 
^ 因子可以多次使用，不必使用所 


这个式吝耒示 _ 

我们要找出小子 
3 娩軚值. 2.5 取 X < 3 
整著子 L ® 此. 

我们只想让數值 
范® 中包含小子乂〉 3 
2.5 始數. 


有因子。 


X < 2.5 


X >3.5 


X < 3.5 


I ^ X ^ 3 — 八、 _ 

在这个式 g •中， 

我们所 氺的是 

小子普子3始數 3 -*" X . i ._ _ 

值. 2.5 到3 之 

僅取整 ^ X <10 — 2.5< X <9.5 

后都鲁子3, /§ 

此需要将 nI . 子 
3 . 5 始數儐包含 
在數 值范® 中. 


从-0. 5 到0. 5 蜣所唷麩取整后 
都著子 0. ( S 此.必须将这 
些麩值包含在麩值范®南. 


■0.5 < X < 0.5 


3 ^ X =s 10- 


2.5 < X <10.5 


3 < X « 10 —► 3.5< X < 10-5 


X > 0.5 


3 < X < 10 


3.5 < X < 9.5 


说明：从池中撈出的 
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超越正态 




在今天 这一期 “转椅嬴赢贏”节目中，你贏得累计奖金的概率有多大？看看你能不能求出 
在40个问题中答对30题的概率，每个问题有4个备选答案。 
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在今天 这一期 “转椅嬴贏贏”节目中，你赢得累计奖金的概率有多大？看看你能不能求出 
在40个问题中答对30题的概率，每个问题有4个备选答案。 




斛著 


也票 X 基答对蛛同題淤數目 ， 那么我们要彤 P(X 彡 30). 其 中乂~名( 4 0, 0.25). 

由子 Ap 与八 q 幼太子5,所 "i 适合用正 态今讳 近似针 其 这个 概率. w-p = JO , kvp 气= 30,子是我们需要尔 
p(x > 29.5). 其中 X ~ N (70, 30). 

让我们先求标 准兮： 

K- M 
Z — CT 

29.5 - 10 
30 

19.5 
30 

= 0.65 


在概率表中查找 0.65, 得到概率 0.7422 .即: 
P(X > 29.5) = 1 - 0.7422 
= 0.2578 
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正态分布访谈 


组含访谈 

本周话题： 

^ /T 为什么“正”不等于“闷” 


Head First : 嗨，正态兄，真高兴你能来参加节目。 

Normal :谢谢你邀请我， Head First。 

Head First : 现在，我的第一个问题与你的名字有 
关。你为什么叫做“正态”？ 

Normal ： “正态”是中文说法，其实，在英语里， 
我的名字是 “normal” ， 意思是“常见的，典型 
的”，主要是因为我能恰当代表多种多样的数据类 
型。这些数据的概率分布具有独特的形状——钟 
形，十分平滑，这正是我。我可以说是理想型吧。 

Head First : 可以举一个例子吗？ 

Normal ： 当然可以，假设你开了一家点心店，店里 
出售各种面包。理论上每一块特定品种的面包都应 
该重量相同，但实际上每一块面包的确切重量会有 
波动。 

Head First : 不过，这些面包称起来肯定一样重吧？ 

Normal ： 大致一样，但存在偏差。我为这种偏差 
建模。 

Head First : 建立模型为什么这么重要？ 

Normal : 嗯，这表示你可以用我来计算概率。假设 
你随机选取一块面包，要计算这块面包的重量小于 
某个特定值的概率一这听起来像是十分难办，不 
过，有我在就简单了。 

Head First : 简单？你指的是？ 

Normal ： 其他许多概率分布会牵涉到大量错综复杂 


的计算。二项分布需要使用 阶乘； 泊松分布需要计 
算幂指数，而我不用算这些。只要在概率表中查一 
查，就解决了。 

Head First ： 肯定没这么容易吧？ 

Normal : 哦，首先要把我转化成标准分，不过这不 
足挂齿，无碍大局。 

Head First : 告诉我，你是否觉得自己比别的概率 
分布都强一些？ 

Normal : 我不会说我比别的概率强多少，不过我倒 
是灵活许多，在很多地方都派得上用场。我也更健 
全，当泊松分布和二项分布的数字变得很大时，他 
们就会遇上麻烦。话说回来，我会尽力帮忙的。 

Head First ： 是吗？怎么帮呢？ 

Normal : 哦，在某些情况下，二项分布和泊松分布 
看上去都和我相似，这一点颇为诡异。在聚会上， 
常常有人拦住他们，问他们是不是正态先生，我对 
他们说，就当别人在恭维你们吧。 

Head First ： 这能带来什么帮助呢？ 

Normal : 哦，由于他们看上去像我，实际上就可以 
用我的概率表算出他们的概率。用处有多大？那就是 
再也不用深更半夜地拿计算器了，只需一个字 ：査。 

Head First : 由于时间关系，看来今天只能谈到这 
儿了。正态先生，谢谢你的到来，采访你真愉快。 

Normal :别客气， Head First。 
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超越正态 


大象坐上爰惰过山车 


还记得德克的爱情过山车吗？他已经开始请人试坐，每一个试坐过的人都觉得很棒。 
只有一个 问题： 过山车有时候会发生故障，故障导致延迟，延迟导致耗钱。 


关于正在试用的这款过山车，德克在网上找到了一些统计数据，其中一个网站说可 


以预期的故障次数为每年40次。 





看在过山车肯定能赚大钱的份上，德克考虑，如果过山车的停机概率 
低于每年52次，还是值得干下去的。 

我们如何算出这个概率呢？ 


这种情况符合哪种概率分布？如何求出过山车每年发生的故障 
小于52次的概率？ 
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动动笔解答 


这种情况符合哪种概率分布？如何求出过山车每年发生的故障 
小于52次的概率？ 

也票其物钵其种半均麵車皮生故障，则这种错况符合祕枳舍讳，功值糸其参數.也票 x 耒示一年内 
的故障攻數, 0'jx - P „(40). 

我们需要求 P(x < 52 ),糸此.我们需 要帛虫 52>， irt 蜍所唷 X 值今剔对座鲶概率. 


^动动笔 
I 解著 



计其这个概車既赉时又赍力，我 
老虑是禾4铖像处娌二项今讳一 
样，找到一个简便其注. 


在某些特定情況下，泊松分布的形状很像 ]£ 态分布。 

所带来的好处是，我们可以利用标准正态概率表算出全部概率, 
即不用为了求得最终结果而大量计算一个个概率。 

泊松分布的正态近似法与二项分布的正态近似法十分 相似： 先认 
清情况，算出泊松分布的均值和方差，然后将二者作为正态分布 
的参数。 

如果 X ~ Po ( X ), 表示相应的正态近似为 X ~ N ( X , X )。什么时候 
会出现这种情况呢？ 

这完全取决于分布的形状。 
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超越正态 


何时能用正态分布近似代替泊柁分布 

只要泊松分布的形状与正态分布相似，就可以用正态分布近似代替泊松分布。 

什么时候会岀现这种情况呢？让我们看看。 

当入很小…… 

当人很小时，泊松分布的形状与正态分布不相同，图像不对称，曲 
线好像被“扯”向了右边。 

由于泊松分布在 X 较小时与正态分布差别很大，因此在 X 较小时 
不适合用正态分布近似代替泊松分布。 

当入很大 . 

随着 X 变大，泊松分布图的外形看起来越来越像正态分布。曲线 
的主要部分呈合理对称，近似光滑曲线，与正态分布接近。 

即，随着 X 变大，正态分布越来越适合用来近似泊松分布。 

多大才萁足够大？ 

我们已经看到，当 X 较大时，泊松分布与正态分布相似，不过，要大到什么程度才 
能用正态分布进行近似呢？ 

当 X 大于 15 时可谓足够大。即，如果 X ~ Po(>0 且 15, 我们就能用 X ~ N(X, X) 
近似计算乂 ~ Po(X)o 
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德克的爱情过山车发生故障的次数符合泊松分布，其中入 


第一年的故障次数小于52次的概率有多大？ 

、提 示： 闲正态近似鉍. 

别忘了遠续蚀嫜正. 





超越正态 
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练习解答 




斛著 


德克的爱情过山车发生故障的次数符合泊松分布，其中 A = 40 c 
第_年的故障次数小于52次的概率有多大7 


也票用 X 耒示一卑 rt 的故障攻數.则 X ~ P 0 ( 4 0). 

由子 X 鼓太.我们可 . 4用正态今讳近似代替这个今讳，即可 " i 闲： 
X ~ N (40, 40) 


我们需要彤故陣攻數小子 52 的概車.由子用遠续概率今沛近似代替离散概率兮讳，祈 
»1必须进行遠读化蟑正.我们不扃将52计 Jf 在南，子是只需要求 PCX S 57.5). 


在用标准正态表查出概率之前，需要先计真标准今. 


51 .5 - 40 


1.82 (保留兩值小數) 


在概车表中查找上结票，得到 0.9656, 即一年南蜣故障攻數小子 52 蜣概率态 0.9656. 
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超越正态 





现在该考考你的统计知识了。填写下表，说说哪种正态分布适合哪种情况，需要满足什么 





X 与丫忌独立重量 





X 的正态近似 
X ~ B(n, p) 


X 的正态近似 
X ~ Po(A> 


X ~ N (〜， ^vp 气） 



w \基 x 蛛独立观察结票 


kvp > 5, > 5 

需要迸行違读蚀雒正 


X> 15 


需要迸行逭读性嫜正 
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要点和世上没有傻问题 




要点 


I _在特定条件下，可以使用正态分布 
近似泊松分布。 


_如果 X~Po(A) 且 A > 15,则可 
以用 X~N(A, A) 近似X。 


如果你用正态分布近似代替泊松分 
布，那么，为了确保结果正确，需 
要进行连续性修正。 


f 5 ) :二项分布和泊松分布都可以 
用正态分布近似表示，那么几何分布 
可以吗？正态分布能近似代替几何分 
布吗？ 

^ : 我们之所以可以用正态分 
布近似代替二项分布和泊松分布， 
是因为在某些特定情况下，这两种 
分布与正态分布具有相同的形状。 

而几何分布呢，它永远也不会和正 
态分布外形相似，因此，正态分布 
绝不能有效地近似代替几何分布。 


世上 M 傻问题 

|»):如果用正态分布近似代替泊 
松分布，必须进行连续性修正吗？ 

^: 没错，这是因为你在用连 
续概率分布近似代替离散概率分布， 
因此就像修正二项分布一样，需要 
对泊松分布进行连续性修正。 

(») :用正态分布近似代替二项分 
布或泊松分布有什么好处呢？如果坚 
持用原来的分布，结果是不是会更准 
确呢？ 


^ : 如果使用原来的分布，结 
果的确会更准确，但这极费时间。 
如果你想通过二项分布或泊松分布 
求出一个数值范围的概率，就需要 
求出该数值范围中的每一个单独数 
值的概率。相反，使用正态分布则 
可以查找整个范围的概率，这样就 
大大地简化了。 


用圧恣分布近愀代替汨柅分布时，费逬行连续牲修正。 
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超越正态 


婚礼 成功！ 

经过你高_统计分析， 娜 山车开张了，客户需求比 德克的 最高細还要旺 
盛。下面就是德克的一部分顾客，看，他们多幸榷！ 









10 统 计 紬#的迗阁 


禾 抽取样本令 



统计需要处理数据，数据从何而来？ 

有时候数据很容易收集——例如参加一家健身倶乐部的人员的年龄，或一家游戏公 
司的销售数据。但有时候不太容易，这时候该怎么办？——当事件数量十分庞大时, 
很难决定该从何处着手收集数据。在本章中，我们将看看如何在实际工作中成功收 
集数据一有效地、正确地、省时省钱地收集数据。欢迎来到抽样天地。 


进入新的篇章 415 



曼帝糖果公司口味捡验难题 


I 帝糠果公司口咮检验 

曼帝糖果公司是一家糖果和巧克力主要供应商，超长效口香糖球是他们的标志性产 
品，这种产品具有五彩缤纷的颜色，可以满足各种口味。 

曼帝糖果公司打算大做电视广告，吸引更多的消费者，广告包括这样一部分 内容： 
宣传口香糖球的口味持续时间。问题来了：他们该怎样得到相关数据？ 

公司决定进行口味检验，也已经招聘了一批试吃者帮忙完成检验。这时出现了两个 
问题： 试吃者吃完了所有的 糖球； 试吃者的牙齿健康问题让公司破费不少。 



拜托.剧再让我噃#球 
7 . 我淤牙都 没了. 


嗯，第 M 66 赖梯妹蛛咮道在 55 
今钟后就馆失了， 俚第 M 67 赖在1 
o ( 小时后仍^口 咮蟓郁 …… 



抽取样本 


糠球吒光了 

曼帝糖果公司口味检验发生了重大失误一试吃者把所有的糖球都吃光了。 
这不仅伤害了试吃者的牙齿，而且没有糖球可卖了——试吃者嚼过的糖球是 
不能拿来卖的。 


进行口味检验的目的是弄清楚糖球的口味持续时间，但这真的意味着试吃者 
必须尝遍每一粒糖球吗？ 





为了确定糖球的口味持续时间，你会怎么做？需要考虑什么？ 
将答案写在下面，尽量写详细些。 





总体与样本 


对糠球 祥本而 非糠球总体迸 行检验 


曼帝糖果之所以碰到问题，是因为他们的试吃检验出现了 “试吃每一粒糖球”这 
个环节，这个环节费时、费钱、伤牙齿，并且剩不下糖球卖给消费者。 


那么，曼帝糖果该做些什么改变呢？让我们从总体和样本的差别讲起。 


糖妹息体指淤 


糖球总体 

目前，曼帝糖果对现有的每一粒糖球进行口味检验，若用统计术语表达，那么他 
们是在用总体进行检验。 


统计学上的总体指的是准备对其进行测量、研究或分析的整个群体，可以是人、 
得分，也可以是糖果——关键在于总体指的是所有对象。 

普查指的是对总体进行研究或调査。在曼帝糖果的实例中，他们对每一粒糖球进 
行品尝，因此，是对糖球总体进行普査。普査可以给出关于总体的准确信息，但 
并不是在任何情况下都切实可行。当总体数量很大，或者说无穷无尽时，就不可 
能对每一个对象进行研究了。 



糖球#本 


不需要尝遍所有糖球也能搞清楚糖球口味持续时间——你可以不检验 
总体，而检验样本 C 1 


一个统计样本就是从总体中选取的一部分对象。通过选取样本，使其恰 
当地代表总体，从而得到代表总体的一个子集。对于曼帝糖果来说，一个 
口香糖球样本就是所选取的一小部分糖球，而不是每一粒糖球 3 

仅对总体的一个样本进行的研究或调查称为样本调奄，在多数情况下， 
进行样本调査比进行普査更切实可行，通常样本调查所费的时间和费 
用都较低，且不用考虑整个总体。由于不使用总体，对口香糖球进行 
样本调査则意味着调査完毕后还会剩下大量糖球。 

那么如何利用样本得出关于总体的结论呢？让我们看一看。 



一个患体嬈各 
集. 闼此 只支 

一秭兮掮妹. 
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抽取样本 


紬样方法 

建立一个好样本的关键是尽量选择最符合总体的样本，如果样本具有代表性， 
则表示样本具有与总体十分相似的特性，进而意味着可以通过样本预测出总体 
具有哪种特性。 

假定你用一个具有代表性的口香糖球样本检验每种口香糖球的口味持续时间, 
检验结果的分布可能如下 所示： 

即使只是试吃了一个小样本的口香糖球，你也能 
对分布形状得出印象。试吃数量越多，图形形状 i 

越清晰。例如，通过查看抽样分布的形状，可以 
对总体分布的中心位置得出初步印象。 

让我们将这张图与实际总体进行 比较： 


持续时间 

这是总体分布图。看出总体分布和抽样分布有 
多么接近了吗？ 

比较这两个图形可以看出，尽管一个图形代表所 
有的口香糖球，另一个图形仅代表其中一些糖球， 

但二者的大致形状十分相似。它们具有一些共同 
的特点——例如数据中心的位置相同，这意味着可 
以用样本数据预测总体数据。 

持续时间 
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并非所有样本都可靠 


但愿我们能保证每一个样本都与作为样本来源的总体相吻合——可惜，并非 
每一个样本都酷似其总体。这似乎不是什么大问题，但是，使用具有误导性 
的样本实际上会导致对总体做出错误的结论。 


例如，设想你为了检验糖球口味典型持续时间而抽取一个口香糖球样本，但 
这个样本却仅包含红色糖球，这时，样本可能能够代表红球，却不能代表总 
体中各种其他颜色的糖球。如果用这个样本的结果推测有关口香糖球总体的 
信息，最终会对口香糖球的特性形成错误结论。 

使用错误的样本会导致对总体参数(例如均值和标准差)得出错误的结论，你 
可能会对数据形成截然不同的观点，进而做出错误决策= 

麻烦在于，你可能当局者迷——你可能会觉得总体会如此这般，而事实却并 
非如此。我们务必建立某种机制，确保样本能够可靠地代表总体 



.■…可铖并 禾是患 
体的最住代象. 



我们想得到这个 结果: 


而不是这个 结果: 
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抽取样本 


案件：消失的咖啡销屋 

星巴仕咖啡店首席执行官想在店里销售一种新品牌的咖啡，但他不 
确定这种咖啡是否受客户欢迎。他让新来的实习生进行调査，摸清 
客户的想法。实习生请客户品尝新品牌的咖啡，然后把客户的想法 
告诉首席执行官。 


5尹李中 
推琪 



这位实习生十分乐意得到这个大好的工作机会，首先，他已 
经打听到，如果这个工作干得好，月底将得到一份 奖金； 其 
次，他打算向星巴仕的友好客户分发免费咖啡，并聆听一些 
积极 信息； 第三，他一直在找借口，想和他常驻的咖啡店的一 
位常客—位很特别的女孩搭话，这次工作正是一个机会。 


这位实习生做完调査后，兴冲冲地跑去告诉首席执行官人人都喜欢 
新品牌咖啡，这种新品牌很可能销量火爆。“太好了”，首席执行 
官说，“我们下个季度就推出这种咖啡。” 

当新品牌咖啡最终上市后，销量很不好，首席执行官不得不取消这 
个系列。你觉得问题出在哪里？ 

新品牌咖啡为什么销路不佳？ 
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设计样本 


如何设计#本 

样本的作用是用它判定总体情况。为了确保得到正确结果，需要明智地选择 
样本。让我们先来认清总体的实质，以便让样本尽量具有代表性。 


碥定目标总体 


首先要弄清楚目标总体何在，才知道样本取自哪里。这里的 H 标总体指的是你正 
在研究的、并且打算为其采集结果的群体。你所选择的目标总体在很大程度上取 
决于你的研究目的，例如，你打算收集世界上所有的口香糖球的数据，还是收集 
某个特定品牌或某个特定类型的口香糖球的数据？ 

目标总体要尽可能精确，这样能更为容易地得出尽可能代表总体的样本。 



叙们需 要得到羡帝公司短长 
鈦 C 3 看桷妹嬈軚掂.函此你 
""" 糾标 4狀 ㈣ G 看姨球 • 


碥定紬#单忮 

一旦确定目标总体，就需要决定要抽取哪一类对象，通常，要抽样的对象类型就是 
在确定目标总体时所描述的对象类型，例如，可以是一粒口香搪球，也可以是一盒 
口香糖球。 


a 蛛检验中嬈抽嵙单佐 
炎一粒趄长鼓 o 看桷球. 

o 


422 深入浅出统计学 



口香耱球#1897653 


抽取样本 


碥定紬#空间 


最后，你需要列一张表，表中列岀目标总体范围内的 \ 
所有抽样单位，最好给每个抽样单位取个名或编个号。\ 
这张表被称为抽样空间，基本上，你可以从这张表中选 
取样本。 

有时候不可能得出涵盖整个目标总体的抽样空间表，例如， 
如果要收集生活在某个地区的居民的观点，由于人口流动， 
表中列举的名字就会受到 影响； 如果所处理的是一些相似 
的对象，例如口香糖球，那么为每一粒糖球命名或编号恐 


口 香糖球 #1897654 \ 

口香糖球 #1897655 \ 

口 香糖球 #1897656 \ 

口 香糖球 #1897657 ' 

\ 口 香糖球 #1897658 
口香糖球#1897659 
口香糖球#1897660 
口香糖球#1897661 


怕是不可能的，或者说是不现实的。 


f 毒一輕口香耜球 
命名或編号可铖尽 
是郓么切实可行 


口香糖球#1897662 
口香糖球#1897663 



( 这似手是在浪赍时 
同，我必须完成这些步骧 
吗？我禾铋抽取几个榇球 
就完事吗？ 


如果不好好设计，样本有可能不精确。 

设计样本需要额外付出不少准备时间，但是， 
比起费时、费钱地进行调查却换来一些错误结 
果，这要好多了。后者会让金钱和时间付诸东 
流，更有甚者，恐怕会有人根据错误的调查结 
果做出错误的决策。 

设计不当的样本会引起 偏倚， 让我们详细讲讲 
这 一点。 


口香糖球#1897670 
口香糖球#189767 
\ 口香糖球#189： 
\ 口香糖球#1 

\ 口香糖球 
\ □香糯 
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抽样偏倚 


桿本有 时会岌生偽倚 

并非每一个样本都能做到十分客观——除非极其小心，否则，样本中会潜人 
这样那样的偏倚，使最终结果发生扭曲。你在无意间（也可能是有意间）带 
人样本的某种个人偏好就是偏倚，这时，你的样本不再是从总体中进行随机 
选择的结果。 

如果一个样本无偏，则这个样本可以代表总体，是总体的客观反映。 

无偽样本 

无偏样本可以代表目标总体，即该样本与 
总体样本具有相似特性，我们可以利用这 
些相似特性对总体本身做出判断。 

一个无偏样本的分布形状与作为其来源的总 
体的分布形状相似，如果我们知道样本的 
分布形状，就可以据此以合理程度的置信 
水平预测总体的分布形状。 

持续时间 


无僱#本 



值倚#本 



持续时间 


偏倚#本 

偏倚样本无法代表目标总体，由于样本与 
总体的特性不相似，无法根据样本对总体 
做岀判断。如果我们试图用样本的分布形 
状预测总体的分布形状，最终将会得出错 
误的结果。 
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抽取样本 


斫起来让人绝 f . 我怎么铋啃定唷没省偏倚？ 
它到暮束自啷里？ 


偏倚的来源 


偏倚是怎么溜进样本里的？下面是部分 原因： 

o 抽样空间中条目不齐全，因此未包含目标总体中的所有对象。如果 
条目不出现在抽样空间中，那么也不会出现在样本中。 

o 抽样单位不正确。例如，也许抽样单位不应该是一粒粒的口香糖球， 
而应该是一盒盒的口香糖球。 

o 为样本选取的一个个抽样单位未出现在实际样本中。例如，你可能 
发出一份调查问卷，但并不是人人都给出回应。 

o 调查问卷的问题设计不当。设计的问题要中性，要适合每个人回答。 
例如，“曼帝糖果公司的糖果比其他品牌的糖果更可口，您同意 
吗？”这种提问带有偏倚，较好的做法是请受调查者自己说出他们 
偏爱的糖果品牌。 

o 样本缺乏随机性。例如，如果在大街上展开调査，你可能会回避行 
色匆匆或气势汹汹的人，于是你就将气势汹汹的人或行色匆匆的人 
排除在调查范围以外。 



如上所述，偏倚来 S 广泛，而其中大部分归曾于样本选取方法。 

我们需要检查样本的选取方法，使偏倚的发生几率降至最低程度。 
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世上没有傻问题 


世上没布傻问题 


I ®):这么说抽样空间就是我们所 
抽取的所有对象的列表？ 

^: 抽样空间列出总体中的所有 
独立单位，被作为样本的基础，但 
它并不是样本本身，这是因为我们不 
会抽取抽样空间中的所有对象。 

1®) :我如何形成抽样空间？ 

^: 具体做法以及所用对象取决 
于你的目标总体，例如，如果你的目 
标总体是所有汽车车主，那 么可以 
采用汽车车主花名册；如果你的目 
标总体是入读某所大学的全体学生， 
那么可以采用大学注册表。 

1 ^) : 电话簿之类的东西怎么样？ 
能作为抽样空间吗？ 

^: 这完全取决于你的目标总 
体。电话簿上不列出未装电话的家 
庭，还有一些家庭尽管装了电话， 
但会选择不在电话簿上公开。如果 
你的目标总体是有公开的电话号码的 
家庭，那么使用电话簿是一个不错的 
主意； 如果你的目标总体是所有装有 
电话的家庭或甚至是所有家庭，那么 
你的抽样空间不会十分精准——这会 
带来偏倚。 


(«) :我总是能拟定抽样空间吗？ 

答： 并非如此。想象一下，假如 
你不得不调查海洋中的所有鱼类—— 
为每一条鱼命名、编号是不可能办 
到的。 

1^1:我必须确定一个目标总体吗？ 

^: 不错。你需要知道你的目标 

总体是什么，这样才能确保样本代 
表总体。仔细考虑目标总体有助于 
避免偏倚。 

如果你正在替别人做抽样，要尽量 
搞清楚目标总体是什么。要确保自 
己确切地知道哪些包含在总体内，哪 
些排除在总体外。 

I ®):偏倚为什么如此有害？ 

^: 偏倚的害处在于会导致对目 

标总体做出错误结论，进而导致做 
出错误决策。例如，如果你仅仅抽 
取粉色口香糖球，对于全部粉色糖 
球来说，你的调查结果可能是准确 
的，但对于糖球整体来说却未必准 

确 不同颜色的糖球之间可能存在 

重大差异。 


R :调查问卷中的提问如何导致 
偏倚？ 

^:偏倚常常在问题设计阶段悄 
悄潜入。 

首先，如果你给出一系列描述，然 
后要求受调查者表示同意或不同意， 
除非受调查者非常反感，否则表示 
同意的可能性更大。也就是说，调 
查结果将会偏向同意。 

若你给出一组可能答案，但并未涵 
盖一切可能结果，那么也会出现偏 
倚。例如，假设你需要向别人提问 
他们一般一星期锻炼几次，如果你 
给出的答案是“每星期大于5次”、 
“每星期3-5次”、“每星期 1—2 次” 
以及“我不重视健康，因此不锻 
炼”，那么就会导致偏倚，因为有 
些人可能不锻炼身体，但他们并不 
同意“不重视健康”这一说法，也 
就是说，他们无法回答问题。 
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抽取样本 


动笔 


考虑下面这些情况，你会选择什么作为目标总体？抽样单位是什 
么？你会如何拟定抽样空间？进行抽样时还需要考虑哪些问题？ 


1.巧口华公司生产巧克力，他们为节庆季度限量生产了 一些巧 克力，想要检验这些巧克力的品质。 


2 . 统计邦健身倶乐部想进 行一项 调查，看看客户对他们的设施有何想法。 
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动动笔解答 


考虑下面这些情况，你会选择什么作为目标总体？抽样单位是什 
么？你会如何拟定抽样空间？进行抽样时还需要考虑哪些问题？ 

1.巧口华公司生产巧克力，他们为节庆季度限量生产了 一些巧 克力，想要检验这些巧克力的品质。 

目标总钵是 金鄯限 量趿巧克力. 

抽禅单值是一块巧克力. 

抽#空同需要涵盖所省巧兔力.由子是眼責凌产， ® 此公司唷可铋记录4产了多少巧克力，包括每一 
种巧毛力鹼數責. 

在形成掸净时.需要确係 楫蜂铋 代表总体，且禾存在偏倚.也票这一批限量产品包含多种矣型淤巧毛 
力，则要确保掸净中包含每一真巧毛力. 


Wjf Wjf mM- 

斛著 


2 . 统计邦健身倶乐部想进 行一项 调查，看看客户对他们的设施有何想法。 

目标总体是统计邦徤身俱乐都紿所唷害户. 

柚祥单值是一伖害户. 

抽掸空闳需要涵盖所唷害户，唷可铖俱乐都嘀害户龙名册，可将这传龙名册作忌抽掸空同. 

和前面一禪，你需要确保禅净铋够代泉总钵且没唷偏倚，即确保害户蚀剧.卑龄專筹都铋得刭全面鲶 
体现. 
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抽取样本 


破案：消失的咖啡销量 


咖啡为什么销量不佳？ 

我们无法肯定，但很有可能是因为实习生所调查的样 

本人群并未代表目标总体。 j 

首先，实习生希望向友好客户免费派发咖啡，而且 
希望听到正面回应。这是不是说他只与看上去对他友 
好的客户交谈？他是得到了客户关于咖啡的真实评价，还 
是仅仅曾经询问他们是否同意“咖啡味道不错”？ 


5穸钟 



实习生还希望利用这个工作机会和他常驻的咖啡店的一位年轻女常 
客搭讪，他是不是把大部分时间都花在这家店里了？这位女孩是否 
影响了他的样本选择？ 

最后，首席执行官推出咖啡的季节与进行调查的季节不同，这也有 
可能影响销量。所有这些因素，或者其中的部分因素，都有可能导 
致样本有误，进而导致了错误决策。 
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简单随机抽样 


如何选择样本 

我们已经讲过如何设计样本，也已经讨论过需要避免哪几类偏倚，现在我 
们需要从样本空间中选取实际样本，该怎么选呢？ 

简簞随 机紬样 

一种做法是随机选取样本。假设你有一个包含 N 个抽样单位的总体， 

需要选取包含 n 个抽样单位的样本。简单随机抽样就是通过随机过程 
选取一个大小为 n 的样本，所有大小为 n 的可能样本被选中的可能性 
都相同。 

简单随机抽样有两种具体 做法： 重复抽样和不重复抽样。 

重复紬祥 

重复抽样指 的是： 在选取一个抽样单位并记录下这个抽样单位的相 
关信息之后，再将这个单位放回总体中。这样做的结果是某个抽样 
单位有可能被选取不止一次。重复抽样的例 子有： 决定向大街上的 
行人提问，事前并不查看是否已经向该行人提问过。当你拦住行人 
请他们回答问题，然后在问完后让他们离开，实际上就是将行人放 
回了总体，这意味着你有可能不止一次向他们提问。 


不重 复紬样 


不重复抽样指 的是： 不再将抽样单位放回总体。不重复抽样的例子 
有： 口香糖球检验——尝过的口香糖球是不会被放回总体的。 




fcr 


耆过妫 C 3 看桷球孓会被放 
回患体淤. ® 圯这 I 一个 
裏简单随机抽嵙. 
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抽取样本 


如何选取简簞随机#本 


使用简单随机抽样主要有两种 方法： 抽签，或使用随机编号。 


紬签 

抽签就是把抽样空间中的成员的名字或编号写在纸上或是球上, 
然后将其全部放人一个容器，再随机取出 n 个名字或编号，以便 
得到足够的样本单位。 


随机编吾生成器 



如果你所处理的是一个大型抽样空间，抽签可能不太可行，于 
是可以采用另一种做法——随机编号生成器或者随机编号表。 
这时，你为抽样空间的每个成员编一个编号，再生成一组共 n 个 
随机编号，然后从该空间中取出编号等于所生成的随机编号的 
成员。 


重要 提示： 确保每个编号的生成机会相同，从而避免偏倚。 




动动膊 


简单随机抽样并不是不会发生问题，你觉得会在哪里出错？ 


第10章统计抽样的运用 431 




分层抽样、整群抽样及系统抽样 


其他类型的紬# 


即便是简单随机抽样也免不了有问题。 


使用简单随机抽样时，仍然存在样本无法代表总体的可能性，例如，可能你 
最终随机抽到的全是黄色口香糖球，却错失其他颜色。 

怎么避免这种情况呢？ 

我们玎认用分 层紬祥 …… 


有一个方法可以取代简单随机抽样，即分层抽样。这种抽样类型将总体分割为 
几个相似的组，每个组具有类似的特性。这些特性或者组被称为层。例如，我 
们可以将口香糖球划分为不同的颜色——黄色、绿色、红色及粉色，这样每一种 
颜色就形成一个不同的层。 


完成以上分层工作之后，就可以对每一个层进行简单随机抽样，确保最终样本 
中具有每一个组的代表。为此需査看每一个层在总体中所占的比例，然后按照 
相应比例从每一个层中抽取抽样单位。例如，如果曼帝糖果公司所生产的口香 
糖球有 50% 是红色的，那么样本的一半应该由红色口香糖球组成。 



叙们从每/屢中抽 
取一笑也例破 敵量. 
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抽取样本 


或玎用螯釋紬# 


如果总体中包括大量相似的组或群，则笹群抽样可以派上用场。例 
如，口香糖球可能会按盒出售，每一盒中的口香糖球的数量和颜色 
组成都相似，于是每一盒糖球形成一个群= 

进行整群抽样时，不是对抽样单位进行简单随机抽样，而是对群进 
行简单随机抽样，然后对每一个群的各种特性进行调查。例如，你 
可以对一盒盒口香糖球进行简单随机抽样，然后品尝这些盒子里的 
糖球的味道。 


整群抽样之所以行得通，是因为群与群相互之间很相似，另外它还 
有一个优点，不需要使用总体抽样空间就可以进行整群抽样。例如， 
如果你正在调査树木情况，并把几片特定的森林作为群，则只需要了 
解你所选定的几片森林中的树木就行了。 

整群取样的问题在于可能做不到完全随机。例如，很有可能一盒包装 
中的所有口香糖球都是同一个厂家生产的——如果有不同生产厂家, 
你就不能选取这些糖球。 



或甚至玎用系统紬# 


使用系统抽样时，按照某种顺序列出总体名单，然后每 k 个单位进行 
一次调查，其中 k 为一个特定数字。例如，可以选择每10个样本抽样 
—■次 o 


相对而言，系统抽样既快捷又简单，但却有一个重大 缺陷： 如果总 
体中存在某种循环模式，则样本将会有偏倚。例如，如果糖球的生 
产工艺造成每到第10个糖球就是红色，那么你最终抽到的都是红色 
糖球，这会导致你对总体形成错误结论。 



你可 .’ i 每70个麴妹抽傅一攻，从而得虫系说抽掸. 



QQ0AQ#D.©Q©Q#_©0.©.*0.QQ©_Q 



i Q 
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世上没有傻问题 


f 5 ) :使用这些抽样方法能保证样 
本不存在偏倚吗？ 

^: 这些方法无法保证样本不存 

在偏倚，但能将发生偏倚的几率降 
至最低程度。通过认真思考目标总 
体，通过认真思考如何使样本代表 
总体，会更有机会得到无偏的代表 
性样本。 

f 5 ) :我必须使用这些方法吗？不 
能随机选择对象吗？ 

^: 随机选择对象就是简单随机 

抽样。没错，你的确可以采用这种方 
法，但有一点要 小心： 你的样本有可 
能无法代表总体。 

(») : 可这是为什么？要是我随机 
选择对象，它们肯定会代表目标总体 
的。 

答： 不一定。你看，如果你随 
机选择抽样单位，可能会选出一个 
无法有效代表目标总体的样本——这 
纯属随机现象。例如，如果完全随 
机地选择统计邦健身俱乐部的客户， 
有可能选出的都是同一个班的学员， 
或者选出的都是同一种性别的学员。 


世上 M 傻问题 

还会出现这样的情况——你觉得自己 
是在随机选择，但事实并非如此。例 
如，如果你在进行顾客满意度调查， 
但却任凭顾客自己决定是否回应调 
查，那么，鉴于顾客只有得到充分鼓 
励才会给出回应，你最终得到的可能 
是有偏样本。最积极参与调查的顾客 
会是那些最满意或最不满意的顾客， 
那些感受不强烈的顾客发表意见的可 
能性则较小，然而，可能正是这部分 
人构成了总体的主要部分。 

f 5 ) :要是我增大样本呢？能避免 
偏倚吗？ 

^: 样本越大，样本发生偏倚的 
几率越小，使用简单随机抽样时，这 
的确是一种使样本偏倚几率最小化的 
方法，问题在于样本越大，采集数据 
所需要的时间越多，工作越繁杂。 

( o ) :分层抽样和整群抽样有何 
区别？ 

^: 分层抽样将总体划分为不 
同的组，或者叫做层，每一个层中 
的所有抽样单位相互之间尽量相似， 
也就是说，你认定一些特征或属性， 
例如性别，将其作为分层的依据 。一 
旦将总体划分为层，就能对每个层 
进行简单随机抽样。 


整群抽样的目的是将总体划分为多 
个群，同时尽量保证群与群相似，随 
后通过简单随机抽样选取群，再接 
着就是对这些群中的对象进行抽样。 

|»):明白了 ^这么说，在进行分 
层抽样时，要尽可能让每一个层不一 
样；而在进行整群油样时，要尽可能 
让每 一个群 相似。 

^: 完全正确。 

|»|:系统抽样怎么讲？ 

^ : 进行系统抽样时，先选取一个 
数字 k , 然后，每到第 k 个对象就进行 
抽取，组成样本。这种抽样方法相当 
便捷，但这并不是说你的抽样一定可 
以代表总体。实际上，只有在抽样空 
间中不存在重复模式或组织时，这种 
抽样方式才能有效使用。 

(») :抽签听起来很老套，大家仍 
在这么做吗？ 

答： 不如过去那样常用了，不过 
仍然是一种抽样方法。 
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抽取样本 



有人给了你10盒巧克力，要求你对盒子里的巧克力进行抽样，盒子里有白巧克力、牛奶 
巧克力和黑巧克力。你的目标总体是所有巧克力，抽样单位是一块巧克力。 


1. 如何用简单随机抽样解决这个问题？ 


2. 如何用分层抽样解决这个问题 7 


3. 如何用整群抽样解决这个问题？ 
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练习解答 




斛著 


有人给了你10盒巧克力，要求你对盒子里的巧克力进行抽样，盒子里有白巧克力、牛奶 
巧克力和黑巧克力。你的目标总体是所有巧克力，抽样单位是 一块巧 克力。 


1. 如何用简单随机抽样解决这个问题？ 


简单随机抽掸：随机选取巧克力，可 .4 用抽签方式，也可用随机编号方式，办此一束，每一 
块巧克力都嘀同專鲶抽中机会. 


2. 如何用分层抽样解决这个问题？ 


今层 抽掸： 将巧克力今忌禾间蜣层. 延后对 每一层进行简单随机抽掸.每一层都由特蚀相间蜣巧 
克力徂成，函此可.4按蛙巧克力鲶禾同矣型进行今层，可将由巧克力作糸一层，牛奶巧兔力 
作态一层.黑巧毛力作忌最后一层. 


3 . 如何用整群抽样解决这个问题？ 

整群 抽祥： 将巧毛力今态 / U 且，毐一徂都必须相似.假定每一盒巧充力都相似，则可4取其中一 
盒.&后对这一盒中的所嘀巧毛力进行抽掸. 
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抽取样本 




你会如何对曼帝糖果公司的超长效口香糖球进行抽样调查？糖球有 4 种颜色，都由同一家工 
厂 生产。 

假定你必须从零开始进行抽样。 
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练习解答 


斛著 


你会如何对曼帝糖果公司的超长效口香糖球进行抽样调查？糖球有 4 种颜色，都由同 一家工 


厂生产。 


假定你必须从零开始进行抽样。 


S 标总钵是羡帝耥票公司淤金都趁长鼓口看軲球，抽祥单值是单粒#球，至子抽掸空同，娌想鯰锖况是 
编制一传按编考#列蜣掮球彖.俚这可铋无注付诸实规 .（ S 此我们用另一个方这束代替.即列出一个表, 
表中说明总体中鲶每种顏色蜣掮球各嘀多少粗. 

使用何种抽#矣型取决子你蜍至观老應.俚我们應意选样今层抽掸， ® 态这可铋是樽虫无偏掸净淤最胳 
方注.我们会将#球按颜色迸行划今.延后进行简单随机抽掸，从四种赖色中选出一炙比俐姝桷球，延 
后用这些掮球形成傅净. 


若你用了其他斛决方注也无需担心，关鍵是想明白何让你鲶谪查最崧地代泉总钵. 真钵办 鉍可禾间. 




要点 


I ■ 总体 是你所研究的所有事件的集 
合。 


复抽样。简单随机抽样的具体方式 
包括抽签或綱随丰臟器。 


■ 样本 是从总体中选取的相对较小 
的集合，可用于做出关于总体本身 
的结论。 

■ 进行抽样时，首先定义目标总体， 
即要研究的总体。然后确定抽样单 
位， 即要抽样的对象类型。最后， 
拟定一个抽样空间，即目标总体中 
的所有抽样单位的列表。 

■ 如果样本不能代表目标总体，则这 
个样本存在偏倚。 

_简单随机抽样 即随机选择抽样单位 
并形成样本，包括重复抽样和不重 


■ 分层抽样即将 总体划分为几个组， 
或者叫做几个层，组或层中的单位 
都很相似，每一层都尽可能与其他 
层不 一样。 分好层以后，就对每一 
层执行简单随机抽样。 

■ 整群抽样即将 总体划分为几个群， 
其中每个群都尽量与其他群相似， 
可通过简单随机抽样抽取几个群， 
然后用这些群中的每一个抽样单位 
形成样本。 

■ 系统抽样即选 取_个数字 k , 然后 
每到第 k 个抽样单位就抽样 一次。 
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抽取样本 


1帝糠果公司有5样本 

在你的帮助下，曼帝糖果公司采集到了超长效口香糖球的样本， 
这意味着不用尝遍整个糖球总体，而是用样本就可以进行检验了。 



邡么狻 " F 来傲什么？ 

我们已经讲过如何采集具有代表性的样本，可还没有谈到如何 
利用这个样本。我们知道，一个无偏样本与总体具有相同的特 
征，但用哪种方法分析样本最好呢？ 

请接着往下读，下一章将讲解具体做法。 
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11 总体和桿本 的估计 



+ 进行相测+ 


••…这么说吧，小伙务./ 
他们都一个样儿，相一个 
就著子相全鄯 f 


得样本而知总体，不亦乐乎？ 

若想成为样本专家，首先要懂得如何最有效地利用到手的样本——利用样本准确地 
预测总体，并以一定方式说明预测结果的可靠程度。在本章中，我们将讲解如何通 
过样本了解总体，以及如何通过总体了解样本。 
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利用样本进行估计 


糠球 o 哧到底 能持绫多爻？ 


在你的帮助下，曼帝糖果公司得到了超长效口香糖球的无偏样本， 
他们对样本中的每一粒糖球进行测试，得到了关于样本糖球口味持 
续时间的大量数据。 


只有一个问题 • 


我禾管婵净妫 O 咮持续时阂唷多久，我只管总体 
蜣口咮持续时同唷多长，鄆禅我访铋宣讳我们的 
鵪球也剧家鲶杨球噃得久. 


为了让首席执行官满意，我们需要求出曼帝糖果公司糖球总体 
的口味持续时间的均值和方差。 

下面是我们从样本采集到的数据，你觉得我们该如何通过这些 
数据得岀总体均值？ 


这是#球 D 
嗦持 績时同 
本值: 今钟. 


61.9 62.6 63.3 64.8 65.1 


66.4 67.1 67.2 68.7 69.9 





羡帝#球公司酋席 
拢行官摩皋擦 



查看数据，你会如何使用这些数据估计总体的均值和方差？你觉得估计结果的可靠程 
度如何？为什么？ 
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进行预测 


让我们酋先估计总体均值 

我们如何用糖球样本的口味测试结果得出糖球总体的口味持续时间均值? 


答案其实十分直观。我们假设样本糖球的口味持续时间与总体糖球的 
口味持续时间相符，也就是说，我们求出样本的均值，然后将样本均 
值作为总体均值。 

下面这张图显示了样本的分布情况以及可以基于样本而期望的总体分 
布情况。你会期望总体的分布与样本的分布相似，那样就能假设样本 
均值数值和总体均值数值大致相同。 



不能说这二者完全吻合，但这是我们能倣出的最好估计。 

根据已知的情况，样本均值是我们能为总体均值做出的 
最好估计一在我们根据手头信息得到的数值中，样本 
均值是最有可能被作为总体均值的数值。 

样本均值被称为总体均值的点估计量，也就是说，作 
为一个基于样本数据的计算结果，它给出了总体均值 
的良好估计。 
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点估计量详解 


点估计量玎认近鈥总体参数 

在此之前，我们用到过一些总体参数的实际值，如均值或方差 CT 2 。 我 
们要么能够自己动手算出这些数值，要么已经知道这些数值是多少。 

而这一次，我们不知道总体参数的确切数值。我们无法通过总体计算这些 
参数，而只能通过样本数据估计这些参数。于是，我们用“点估计量”对 
总体参数进行最接近的猜测。 

一个总体参数的点估计量就是可用于估计总体参数数值的某个函数或算式, 
例如，由于我们能用样本均值估计总体均值，因此样本均值就是总体均值 
的点估计量。 



我们用符号〃区别实际总体参数和它的点估计量， 例如： 用符号表示总 
体均值，而用 P 表示样本均值， S 卩，为了指出你正在使用的是某一个总体 
参数的点估计量，则在该总体参数的符号上方标上 A 。 



除了项上点镊了一个^符号这 
个点诂针量俨趑就是均僅净身. 
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进行预测 



fHI 



我想起束了，总体均馇省一个 
表示符号，总钵珀值的点诂计量 
也唷 一个.铧么禪净幼值唷表示 
符 号吗？ _ 


样本均值有一个简记符。 

符号^具有十分精确的含义——总体的均值。为了不至于混淆，样本均 
值 另有一 种表示 方法： 3 T ( 读作 “x 拔 ”）。 这样一来，当别人说到 p 
时，我们就知道是指总体 均值； 说到7时，就知道是指样本均值。 

艾是^的样本对等量，它的计算方法和总体均值的计算方法一样——将 
样本中的所有数据加起来，除以总数。即，如果样本大小为 n , 则： 

_ 将婵蜂中淤軚言相加.达 

x - 4# ^x = — 后除这 ㈣㈣ • 

始均值. 11 

我们可以根据上式写出总体的点估计量的简明表达式，由于可以用样本 
均值估计总体均值， 因此： 




我们诂计总体场僅. 


― >p = — 


.用淤炎样#鈞值 


使用样本数据估计总体均值的数值。提示数据 如下： 


61.9 62.6 63.3 64.8 65.1 66.4 67.1 67.2 68.7 69.9 
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解答与提问 

使用样本数据估计总体均值的数值。提示数据 如下： 

64.8 65.1 66.4 67.1 67.2 68.7 69.9 

我们可4 通过计 箕祥奔均值诂计总体 均值： 

八 _ 61.9 + 62.6 + 63.3 + 64.8 + 65.1 + 66.4 + 67.1 + 67.2 + 68.7 + 69.9 

4 =又=- 

10 

= 657/10 
= 65.7 


61.9 62.6 63.3 


|«): 均值就是均值，怎么用这么 

多符号来表示？ 

^: 用到的概念有 三个： 总体 

均值、样本均值以及总体均值的点 
估计量。 

总体均值用 （ JL 表示，本书前面一直 
在讲的就是这种均值，其计算方法 
是： 将总体中的所有数据相加，然 
后除以数据个数之和。 

样本均值用 5 T 表示，计算方法同 jjl , 
不过这时用的是样本中的数据。艾的 
算 法是： 将样本中的所有数据相加, 
然后除以样本个数之和。 

点估计量用&表示，它其实是根据样 
本数据得出的对你所认为的总体均 
值的最佳猜测值。 


世上 M 傻问越 

1 ») : 这是不是意味着我们只要算 
出样本均值就能求出 M ? 

: 我们无法通过样本求出 |X 

的确切数值，不过，只要样本是无 
偏的，就能得出十分接近的估计值。 
即，我们可以利用样本数据求出 jl ， 
但无法求出( X 本身的真值。 

f 5 ) :如果样本是有偏的会怎么 
样？如何计算 M 的估计值？ 

^: 尽量让样本无偏的重要性就 

体现在这里。如果你手头的数据都 
来自样本，那么就要将样本作为估 
计基础。如果样本有偏，就意味着 p 
的估计值有可能不准确，有可能因 
此做出错误的估计。 


(») :样本的大小有影响吗？ 

^ : 一般说来，样本越大，点估 
计量越准确。 

m 是总饨识值 ， xmm 
取识值， P 是 M 的点估 
计量。 
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进行预测 



看上去很棒！我们可 " i 把你的工作成^ 
票用到电视广告里，让太家知道我们蜍 
口看糖球饨唷滋唷咮地噃多久，竞争对寺 
将俯 t 称臣.这亳无疑间. 只唷 一个间 
题： 你期 fib 现多太鲶方差？ 


你已经得到了总体均值的良好估计，那么方 
差呢？ 

只要我们得岀总体方差的良好估计，首席执行官 
就能根据样本数据的结果，判断糖球总体的口 
味持续时间有可能出现多大变异。 



第11章总体和样本的估计 447 



总体方差的点估计量 


让我们估计总体方差 


前面讲到如何利用样本均值估计总体均值，也就是说，我们为超长效 
口香糖球总体找到了一个估计口味持续时间均值的办法。 

为了让曼帝糖果公司首席执行官感到满意，我们还需要得出总体方差 
的良好估计。 


我们可以把哪个算式当作总体方差的点估计量呢？即，我们该如何利 


用样本数据求出6 2 ? 


o 


样本数据的方差可能不是总体方差的最好估计办法 

你已经知道，一个数据集的方差所量度的是数值与均值的偏离程度。 
当你选择一个样本后，相比总体，你拥有的数值数量变少了，因此， 
与总体中的数值偏离均值的程度相比，样本中的数值更有可能以更紧 
密的方式聚集在均值周围——极端数值出现在样本中的可能性下降, 
这是因为总的来说这样的数值变少了。 


频 

数 




总体 



傅耷軚 耆钕患 体少， 

软洽极瑞娩軚後桃 
除在外 • 

■> 


口味持续时间 
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那么哪个算式能更好算出总体方差的估计值呢? 



进行预测 


我们 f 要一个有别子桿本方差的 点估计 1 

用样本方差估计总体方差会出现这样的 问题： 估计结果会稍微偏低——样 
本方差可能会略小于总体方差，差別程度则取决于样本数值的大小。样本 
较小时，样本方差与总体方差的差别有可能更大。 

我们需要找到一个更好的办法来估计总体方差——找到样本数据的某个函 
数，而这个函数所得岀的结果要稍微大于所有样本数值的方差。 


那么用¥个箕式作为估 i 十盪？ 

我们不使用样本数据的方差，而用其他方式估计总体方差。如果样本大小 
为>1,可以用下列算式估计总体 方差： 


总体方差诂计量 




A 



^^―闲掸蜂中蝣每一个数值滅去掸絳均值.所 
Z(X - X ) 2 ^ 得之差取半方數 . M 后将所省早方愷相加. 

11-1 除 -4 掸峰史小減' • 


即，取样本中的每一个数值，减去样本均值，所得之差取平 方数； 然后将 
所有平方值加起来，除以样本数减1。这个算法与样本方差的算法相似，不 
过除数是 n -1, 而不是 n 。 


i 态什么说这是一 

V 0 

. 个更崧蜣诂计呢？ 

) 


这个公式与总体方差的数值更接近。 

一组数字除以 n -1 的结果大于这一组数字除以 n 的结果，当 n 相 
当小时，这种差别最为显著。也就是说，通过公式算得的结果 
与样本数据的方差近似，但会略微偏大。 

总体方差往往大于样本数据的方差，因此，用这个公式作为总 
体方差的点估计量，效果更好一点儿。 
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方差细钿看 




方差缈麵葦 


要想知道用哪个公式求方差，很需要费点思量。一个是求总体方差(7 2 的 
公式，一个是略有变化的求总体方差点估计量 P 的公式，什么时候用这 
个？什么时候用那个？ 

求总体方差 

如果想求确切的总体方差，且拥有全部总体数据，则可用下式进行 计算： 

^ z(x - M) 2 患钵功值 

总体方差 一 


a 2 


■总体太小 


在这种情 况下： 你拥有所有总体 数据； 你知道总体 均值； 你想求出所有 
这些数值的方差一这正是前面一直在用的计算方法。 

估计总体方差 

如果需要用样本数据估计总体方差，则可用下式进行 计算： 

，样 绛询值 


基子#4的总体 
方差点诂针者 


a 2 


Z(x - x ) 2 ^ 


是八- 1 ,而禾是 a . 仏炎样蜂的 
大小.这里真鲶炎诂竹值. 


上式不是在“计算”有 n 个数值的实际总体的方差，而是根据所拥有的 
样本数据来“估计”总体方差。为了估计得更准确一些，除数用了 n -1, 
而不是 n , 这样就能得出略大一点儿的结果。 


总体方差点估计量的式子通常写作 s 2 , 由此 得到： 


总#方差鲶= s 2 
点诂计量 


其中 


s 2 


Z(x - x ) 2 


"7 恰 m 基子 # 
绛鉍据 淤公式 • 


n ■ 


这种表示方法类似于用 I 表示样本均值。 


450 深入浅出统计学 




进行预测 


哪个公式用在彿里？ 

是用 n 做除数求方差，还是用 n -1 做除数求方差？这个问题 
有时候真是让人愁肠百结。做出判断的黄金准则 是：用 n 
做除数会得出“手头拥有的一组数据的实际方差”。 

如果手头拥有整个总体的数据，则以 n 为除数会得出总体 
的实际方差——需要所用 ( T 2 的公式，除数为 II 。 

如果手头拥有总体的一个样本的数据，则你可能会希望用 
这个样本估计总体方差——需要使用 s 2 公式，除数为 n -1。 





有些书上说计算样本时用 
n -1, 有些书则说用 n 。 


这是因为每一本书对样本的用 
途作了不同的假设，如果要用样本估计总 
体方差，则要除以 n -1。 只有在需要计算一 
组确切数值的方差时，才除以 n 。 

如果你正在参加统计学考试，请问清考试 
委员会指定的方法。 
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更多解答，更多提问 



wjf 

\斛箸 


下面是曼帝糖果样本的数据。 

请你估计，总体方差是多少？ 

61.9 62.6 63.3 64.8 65.1 66.4 67-1 67.2 68-7 69.9 

我们可4通过计真 s 2 诂针总体方差. 


G 2 


2 u - 刃 2 

IA/ - 7 

(-3.8) 2 + (-3.1) 2 + (-2.4) 2 + (-0.9) 2 4- (-0.6) 2 4- (0.7) 2 + (7.4) 2 + (7.5) 2 + (3) 2 + (4.2) 2 

9 

14.44 4- 9.61 4- 5.76 + 0.81 + 0.36 + 0.49 4- 1.96 + 2.25 + 9 + 77.64 

9 

62.32/9 

6.92 (保留两值小數) 


世上没布傻问题 


1»):为什么计算样本方差要除以 
n -1? 为什么不能除以 n ? 

^: 这是因为，在大部分情况下 
都是用样本数据估计总体方差。除 
以 n - 1比除以 n 能得出精确性稍微 
高一点儿的结果，因为样本数值的 
方差很可能略小于总体方差。 


1»):这有数学依据吗？ 

^:有啊，我们会在本章末尾 
讲到这一点。能想到这一点很不错， 
请继续保持。 

I ®):我该如何记住哪个符号用于 
总体，哪个符号用于样本？ 

^: 一般说来，希腊字母用于表 
示总体参数，而普通罗马字母用于表 
示样本的均值和方差。 


1»):能像求方差的点估计量一样 
求出标准差的点估计量吗？怎么做？ 

^:为了估计标准差，首先要计 
算方差的估计量，标准差的估计量等 
于方差估计量的平方根。 
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1帝糠果公司紬取？ E 多样本 

口味测试结果让曼帝糖果公司首席执行官大受鼓舞，他要求再进行一次抽 
样，以便发布电视广告。这一次，首席执行官希望能够宣传曼帝糖果公司 
的产品相比竞争对手的产品有多么受欢迎。 

曼帝糖果公司的职员随机抽取了一些人，问他们是喜欢曼帝公司生产的口 
香糖球还是喜欢曼帝公司竞争对手生产的口香糖球。职员们希望能够利用 
调查结果 预测： 总体中有多大比例的人“可能偏爱曼帝公司的糖球”。 




曼帝糖果公司发现，在40个人中有32个人偏爱他们的口香糖球，其余8 
个人则偏爱竞争对手的口香糖球。 





你会如何求出样本中偏爱曼帝糖果口香糖球的人所占的比例？你认为这符合哪种分布 7 
如何将求得的结果用于总体？ 
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总体的点估计量 


达是一个 fc 例问越 

对于曼帝糖果的最新抽样，首席执行官感兴趣的是，是否人人都偏爱曼 
帝糖果的产品，而不是偏爱竞争对手的产品。也就是说，可以将偏爱曼 
帝糖果的每一个人作为一个“成功”事件。 

那么我们如何利用样本数据预测总体的“成功”比例？ 

预蒯总体比例 

如果我们用 X 表示总体的成功事件数量，则 X 符合二项分布，参数为 n 和 
p 。 n 为总体中的人数， p 为成功事件的比例。 

就像总体均值的最接近估计是样本均值一样，总体成功比例的最接近猜 
测肯定是样本成功比例。即，如果我们求出样本中偏爱曼帝糖果的人的 
比例，就能十分近似地估计出总体人群中偏爱曼帝糖果的人的比例。 


用偏爱曼帝糖果的总人数除以样本总人数，就能得出样本的成功 比例； 
如果用匕代表样本的成功比例，则可以下式估计总体的成功 比例： 

总体成功比觸立枯计量^ _ p 辑枝 功也糾 


其中 

= 成功数目 
PS = 样本数目 

也就是说，我们将样本成功比例作为总体成功比例的点估计量，在曼帝 
糖果的最新抽样中，40个人中有32个人偏爱曼帝糖果产品，因此 Ps = 0.8。 
于是，总体成功比例的点估计量也是0.8。 
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概率和比例互有关系 

其实，概率和比例有很密切的关系。 

假设你有一个总体，需要求其成功比例。为此，你可用成功的数 
目除以总体大小。 

现在，假设你想计算从总体中随机选取一个成功事件的概率。为 
此，你可用总体的成功数目除以总体大小。可以看出，你计算成 
功槪率的方法和计算成功比例的方法完全一样。 

我们用字母 P 代表总体的成功概率，我们也能方便地用 P 代表比 
例——二者数值相同。 


p = probability ( 概率 } = proportion (tt 例 ) 




曼帝糖果公司为超长效口香糖球取得了 另一个 样本，并发现, 
在样本中，40个人中有10个人偏爱粉色口香糖球，这些人对其 
他颜色不那么喜欢。总体中偏爱粉色糖球的人的比例是多少？ 
从总体中选中 一个不 偏爱粉色糖球的人的概率是多少？ 
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曼帝糖果公司为超长效口香糖球取得了 另一个 样本，并发现, 
在样本中，40个人中有10个人偏爱粉色口香糖球，这些人对其 
他颜色不那么喜欢。总体中偏爱粉色糖球的人的比例是多少？ 
从总体中选中 一个不 偏爱粉色糖球的人的概率是多少？ 

p = = 1 0/40 

= 0.25 

从总体中选中一个禾喜欢柃色掮球鲶人蜣 概率： 

P (禾偏愛粉色 ） = 7 -卞 

= 1 一 0.25 
= 0.75 


更多解答，更多问题 


我们可4利用婵净比例诂计总钵比例，即 


、、斛箸 


1»): 这么说比例和概率是一回事 7 

: 总体的成功数目除以总体大 
小即等于比例，这个算法和用于计算 
二项分布的概率的算法是一样的。 

|»): 比例算法仅适用于二项分布 
吗？是否适用于其他概率分布？ 

^: 在我们讲过的所有概率分布 
中，二项分布是唯一与比例有关的分 
布。比例算法专门用于解决这种分布 
的问题。 


世上没€傻问题 

(») : 样本比例与总体比例一样 
吗？ 

^: 样本比例可以作为总体比例 

的点估计量，其实，样本比例是对 
总体比例的具体数值的最好猜测。 

|»):如果样本存在偏倚，还会这 
样吗？如何通 过一个 有偏样本估计 
比例？ 

^: 关键在于确保样本无偏，因 

为样本是估计的依据。如果样本有 
偏，那么就会得出对总体比例的不 
准确估计。其他点估计量也会有这 
种情况。 


1 »| :那么如何确保样本无偏呢？ 

^: 请复习前面章节讲过的要 
点，遵守这些要点是确保样本尽量具 
有代表性的好办法。多花点力气准 
备样本是值得的，这意味着你的点 
估计量能够更精确地反映总体本身。 
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求解样本概率 


怕來这儿衮糠球 


还记得统计邦电影院吗？他们最近获得特许，可以销售曼帝糖 
果，这个动向证明很多顾客都喜欢曼帝糖果公司的糖球。 



引进大盒装糖球 

电影院出售混合型盒装 糖球； 还有，这个周末他们将播出一系 
列经典老片。 

这次活动看来很受欢迎，出票情况很好。问题是，有的人要 
是吃不到自己喜欢的红色糖球就会大失所望。 

一盒大包装糖球可供数人分享，每一盒装有100粒 糖球； 糖球 
总体中有25%是红色的。 


户 整场电彩，我唷可铋也應 S 
( 吗? &票包 装盒里(吏省足够 ] 

鲶零食. o 

我 m 需要求_大盒特定糖球中有 40 顆或 40 颗 以上红 
色糖球的概率。 

由于每一大盒糖球的容量为100颗，也就是说我们要求出 
在一大盒特定糖球中红色糖球占40%的概率，且已知糖球 
总体的25%是红色的。 
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迖和紬样有什么兵系？ 

前面已经讲过如何得到无偏样本，以及如何利用样本求出总体参数 
的点估计量。 

这一次，情况有所不同——总体参数已知，需要为某一盒特定糖球 
计算概率。也就是说，在这里要算的不是总体的概率，而是样本比 
例的概率。 


这一次我们需要为样本计霣概率，而不是为总体计篝槪串。 

我们并不计算取得概率分布中的某个特定频数或特定数值的概率， 

而是要计算样本比例本身的概率一我们要算出在一个整体中出现一 
种特定比例的概率。 

为了能够计算上述概率，我们先要得出样本比例的概率分布，下面 
是具体 做法： 

o 查看与我们的特定样本大小相同的所有样本。 

如果我们有一个大小为 n 的样本，就需要考虑所有大小为 n 的可能样 
本。在本例中，盒子里的糖球数量为 100, 因此 n 为 100。 

o 观察所有样本比例形成的分布，然后求出比例的期望和方差。 

每一个样本都有自己的情况，因此每个包装盒里的红色糖球的比例都 
有可能发生变化。 

o 得出上述比例的分布后，利用该分布求出概率。 

得知一个样本中的“成功比例”的分布后，就能够利用这个分布求出 
一个随机样本的比例概率——这里的随机样本是一大盒糖球。 

让我们看看具体做法。 
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比例的抽样分布 


fcfc 例 的袖# 分布 

如何求样本比例的分布？ 

让我们先看糖球总体。已知总体中的红色糖球的比例，用 P 表示， 

即 p=0.25。 

糖 球总饨 

色，- 0 25 - 



每一大盒糖球其实就是从糖球总体中取出的一个样本。每一大盒装有100颗 
糖球，因此样本大小为100,让我们用 n 表示这个大小。 

如果用随机变量X代表样本中的红色糖球的数目，则 X~B(n,p ), 其中 n=100, 
p = 0.25 o 

样本中的红色糖球的比例取决于X——样本中的红色糖球的数目，即比例本 
身是一个随机变量，可以将此记为 P s , 且 P s = X/n。 

鮮取 d *## 祕功 ㈣ • 



X - B ( n , p ) ^^^我们 不知道嵙耷中淤紅 
色轉球的痛切數目，使 
我们知道它鲶兮为 • 
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可以取出的大小为 n 的可能样本为数众多。每一个可能样本会包含 n 颗 
糖球，每一盒样本中的红色糖球的数量会符合相同的分布——对于每一 
个样本，红色糖球的数量符合 B ( n , p )， 成功比例则为 X / n 。 


rrr 不 面的鮮 m 



x~ B ( n , p ) 
P = X/n 

s 



和箾面铕刻嬈柹绛 
/嵙，每一个嵙耷 
都笆含个元膏. 



X - B ( n , p ) 
P = X/n 

s 


利用所有可能的样本，我们能得出所有样本比例的分布，该分布称作“比 
例的抽样分布”，或者称作 “ P s 的分布”。 


明白了. “比例鲶抽祥今邡”其实4一种概 
车今坤， 由所嘀 太小忌^的可试禪蜂的各种比 
例构成.也票我们知道这些比例淤今沛，就铋 
用这个舍讳求出其一个特定祥净鲶比例蜣皮 i 

概率. 


利用比例的抽样分布，能够求出某一个随机选择的、大小为 
n 的样本的“成功比例”的概幸。 

也就是说，我们能够利用比例的抽样分布求出“某一大盒糖球中 
的红色糖球比例至少为40%”的概率。 

不过，在此之前，我们需要知道上述分布的期望和方差。 
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p s 的期望和方差 

p s 的期望是多少？ 

前面讲到，我们可以通过所有可能取用的、大小为 n 的样本的各个比例形成一 
个分布，为了能够用这个分布计算概率，我们还需要了解更多有关这个分布的 
数据一尤其需要知道方差和期望。 


让我们先考虑期望。出于直觉，我们会期望样本中的红色糖球的比例与总体中 
的红色糖球的比例保持一致。如果糖球总体中包含25%的红色糖球，那么，可 
以期望样本中也包含25%的红色糖球。 



虫子直觉.你会期 f 
掸净中鲶红色鵪球妫 
比例与总体中的红色 
掮球的比例一楼一掸. 



、 ••Sf • 


• • 




那么匕的期望是多少？ 

我们想求 E ( Ps ), 其中 P s = X / no 也就是说，我们想求出所期望的样本比例数值，这里的 
样本比例等于红色糖球的数量除以样本糖球的总数量 ，即： 


E ( P S ) = E 


© 


E ( X ) 

n 


上式中的 X 为样本中的红色糖球的数目，如果我们把红色糖球数目视为“成功 
数目”，则 X ~ B ( n , p )。 

在二项分布一章已经 讲过： E ( X ) = np , 于是： 


E ( P S ) = 


E ( X ) 

n 


_ 迎卜 e ( x ) =岬 
=p 


这个结果正好符合我们直觉中的期望。我们可以期望样本的成功比例与总体的 
成功比例相一致。 
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p s 的方差是多少? 


为了能够求出任何样本比例的概率，我们还需要先知道 p s 的方差——可以 
用求期望的相似方法求方差。 


那么 Var ( P s ) S 多少？让我们像以前一样，从 P s = X / n 开始: 

Var ( P s ) = Var 

Var ( X ) 


© 


束电子 var ( nx ) = ® 2vnr ( x ) _ 
在蜂例屮 .a 〜 


如上所述， X 为样本中的红色糖球的数目。如果我们将红色糖球的数目 
视为“成功数目”，则 X ~ B ( n , p ), 于是 Var ( X ) = npq , 即二项分布的 
方差。 得到： 


Var ( P s ) = 


Var ( X ) 


/pq 卜 V«r(X )= 吧 

TV 2 


pq 

n 


取方差的平方禪，可得 p s 的标准差，它指出样本比例与 p 的可能差距，有时 
候我们将它称为“比例标准误差”，因为它能指出样本比例的可能误差。 


比例标准误差= 


n 越大，比例标准误差越小。也就是说，样本中包含的对象越多，用样本比 
例作为 p 的估计量就越可靠。 

现在，如何用所求得的期望和方差数值计算比例的概率呢？让我们接着进行 
下去。 
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p s 的分布 

求藓 P s 的分布 

我们在前面求出了 p s ——比例的抽样分布的期望和方差，我们发现，如 
果通过所有样本比例形成一个分布 ，则： 

pq 

E ( P .) = p Var ( P s )= — 

n 

我们可以借助以上结果求出“大小为100的样本中的红色糖球的比例至少 
为40%”的概率。 



没错， P s 的分布实际上取决于样本的大小。 

下面是一张 P s 的分布图，其中 n 很大。 
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p s 符含正态分布 


当 n 很大时， P S W 分布接近正态分布。所谓“很大”是指大于30 。 n 
越大， P s 的分布越接近正态分布。 

我们已经求得匕的期望和方差，也就是说，当 n 很大的 时候： 



由于在 n >30 的时候？ 5 符合正态分布，所以可以用正态分布解答我们的 
糖球问题。我们可以用正态分布计算“某一大盒糖球中的红色糖球比 
例至少为40%”的概率。 

只是有一件事别 忘了： 需要对抽样分布进行连续性修正。 



有时候统计学家对 n 
应该为多大无法达 
成 共识。 


如果你正准备参加统计学考 
试，一定要问清楚考试委员会 


的要求。 


P , —熏要 进行经续性修正 

每个样本的“成功数目”都是离散的。由于使用“成功数目”计算 
比例，因此在用正态分布计算概率时，要进行连续性修正。 


我们前面讲过，如果用 X 表示样本中的成功数目，则 P s = x / n; X 的正 
态连续性修正为 ±(1/2)0 

如果我们用以上数值替代公式 P s = X / n 中的 X ,那么 P s 的连续性修 正为： 

± ( 1 / 2 ) 

连续性修正=- 

n 

±1 

2 n 





如果 n 很大 ，则 
可以忽略连续性 
修正 

随着 n 增大，连续性修正 
变得很小，于是对整个概 
率带来的变化极小。有些课本会完 
全忽略连续性修正。 


即，如果用正态分布近似计算匕的概率，一定要用± l /2 n 进行连续 
性 修正； 连续性修正的确切数值取决于数值 n 。 
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世上没有傻问题及要点 


世上没有傻问题 


| w ) :什么是抽样分布？ 

^: 如果从一个总体中用相同的 
方法抽取许多大小相同但存在差异 
的样本，然后用每个样本的某个属 
性形成一个分布，则所得结果称为 
抽样分布。由此得出，用每个样本 
的比例形成的抽样分布就是“比例 
的抽样分布”。 

(») : 我们的确需要采集所有可能 
采集的样本吗？ 

^: 不，其实我们不用实际动手 
采集所有样本，而是假设我们采集了 
所有样本，然后得出期望和方差的 
表达式。 


|«): 这么说抽样分布有期望和方 
差？为什么？ 

^: 抽样分布是一个概率分布， 

因此，像其他概率分布一样，它有 
期望和方差。 

比例的抽样分布的期望类似于样本 
比例的平均数，等于从一个特定总 
体中取出的样本的期望比例。 

1 ») : 为什么 P s 的方差和总体方差 

CT 2 不一样？ 

^: 比例的抽样分布的方差描述 

的是样本比例的变化情况，而不是描 
述数值本身的变化情况。由于描述的 
概念不一样，因此结果数值不一样。 


(») :比例的抽样分布有什么用处？ 

^: 可以用它求出从一个已知总 
体中取出的某个样本的比例的概率, 
可以由此得知样本的期望形态。 

|»):比例标准误差究竟有何含义？ 

^: 标准误差是抽样分布的方差 
的平方根，实际上，它指出你能够期 
望的样本比例与总体比例真值的差 
距，即指出你能期望出现哪种误差。 


要点 

■ 考虑从同一个总体中取得的所有大小为 n 的可能 
样本，由这些样本的比例形成一个分布，这就 
是“比例的抽样分布”。我们用 P s 代表样本比例 
随机变量。 


■ Ps 的期望和方差的定义 式是: 

E(Ps) = p 
Var ( P s ) = pq/n 

其中 p 为总体比例。 


该分布的标准差称为比 例标准误差， 其定义 
式为： 

War ( P s ) 

如果 n >30, 则 Ps 符合正态分布， 于是： 

Ps - N ( p , pq / n ) 

使用这个公式时需要进行连续性 修正： 
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糖球总体的25%为红色。 在一 盒装有100粒糖球的包装盒中，至少有40%红色糖球的概率 
有多大？让我们逐步进行计算。 


1.如果口 3 表示盒中的红色糖球的比例，那么合什么分布？ 


2. P ( P S & 0.4：) 的数值是多少？ 



提示： 别忘了迸行連後蚀蜻正. 
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练习解答 



斛著 


糖球总体的25%为红色。 在一 盒装有100粒糖球的包装盒中，至少有40%红色糖球的概率 
有多大？让我们逐步进行计算。 


1. 如果口 5 表示盒中的红色糖球的比例，那么 P s 符合什么分布？ 

让我们用 I ■表示 盒中红色桷球淤概丰.即 p = 0.25. 

让我们用 p s 表示盒中紅色掮球蜣比倒. 

P s ~ N ( p , p ^/ n .). 其中 p = 0.25, ^ = 0.75, 且八 = J 00. 由子？气/八鲁子 0.25 x 0.75 / 7 00 = 0.007 875 • 得到： 


P s ~ N (0.25, 0 . 001875 ) 


2 . P ( P S ^ 0.4) 的数值是多少？ 提示： 别忘了进行连续性修正。 

P ( P S ^0.4) = P ( P S > 0.4 - 1/(2 x 100 )) 

= P ( P S > 0 . 395 ) 


由子 P s ~ N (0. 25 , 0.007 875 ),我们需要尔虫0. 395 的标准今，这禪 就铋在概車表 中查找结票.子是得出： 

0.395 - 0.25 

z = - - 

ylo.001875 

= 3.35 


P ( Z . > Z ) =卜 P ( Z , < 3.35) 


= 7 - 0.9996 
= 0.0004 
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_ 比例的抽样穸布缈缈著 

取所有大小为 n 的可能样本的比例，形成分布，这就是比例的抽样分 
布。一个样本的成功比例用匕表示 ，且： 

E ( P S ) = P 


pq 

Var ( P s )= — 
n 



知道 Ps 的概率分布很有用处一这表明，在已知特定总体的情况下，我们 
可以计算样本的成功比例的概率。我们可以用正态分布近似该分布，样本 
越大，近似结果越正确。 


紬桴分 布的逢续性修正 

在用正态分布进行上述近似计算时，进行连续性修正十分重要，这是因为 
样本中的成功数目是离散的，进行比例计算时用到了这个离散值。 

如果用 X 代表样本中的成功数目，则 P s = X / n 。 X 的连续性修正为±(1/2)， 
即连续性修正的算 式为： 


连续性修正=^ 

2 n 

也就是说，如果用正态分布近似计算抽样比例的概率，一定要用 ± l /2 n 
进行连续性修正。 
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样本均值的分布 


有多少糠球？ 

利用比例的抽样分布，你成功地求出了某一个特定样本中岀现一定比 
例的成功事件的概率。这就是说，现在你可以用样本预测总体情况， 
或是用所了解的总体信息预测样本情况。 



曼帝糖果公司还有一个问题需要你动手解决——除了大盒装糖球，曼 
帝糖果也生产小袋装糖球，你可以把小袋糖球装在口袋里随身带着, 
想吃就吃。 


根据曼帝糖果公司对总体的统计，每一个小包装袋里的糖球数目均值 
为10,方差为1。麻烦 来了： 他们遭到了投诉。一位最忠实的顾客买了 
30袋糖球，结果发现每袋糖球中的糖球平均数目只有8.5。 

首席执行官担心失去最佳顾客，于是想给他一些补偿，问题是他并不 
想补偿所有顾客。他想知道，这种事的发生概率有多大？ 





为了解决这类问题，你需要知道什么数据 7 
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进行预测 


我们 t 襄求#本均值的概率 


这个问题与前面的问题略有不同。我们已知小包装糖球的总体均 
值和方差，然后抽取了几袋糖球作为样本，需要为该样本计算概 
率。这一次，我们不需要计算样本比例的概率，而要计算样本均 
值的概率。 




✓ 这一攻始总 体是阱 
/唷小包装糖球. 


嵙奔包括 30 个+包装. 


为了计算样本均值的概率，先要得出样本均值的概率分布。下面是 
具体 步骤： 


o 查看与我们所研究的样本大小相同的所有可能样本。 

如果我们手头的样本大小为 n , 则需要考虑大小为 n 的所有可能样本。 
小包装糖球有30袋，因此这里的 n 为30。 

o 查看所有样本形成的分布，求出样本均值的期望和方差。 

每一个样本都各有特点，每个包装袋中的糖球数目有变化。 

o 得知样本均值的分布后，用该分布求出 概率。 

只要知道所有可能样本的均值的分布情况，就能利用该分布求出一个 
随机样本的均值的概率，在本例中，随机样本即小包装糖球。 


让我们看看如何解决以上问题。 
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样本均值分布深究 


均值的紬桴分布 

我们如何求样本均值的分布？ 


让我们从袋装糖球的总体开始。我们已知总体的均值和方差，并用 H 


和 a 2 表示，一个包装袋中的糖球数量可以用 X 表示。 

随机选择的每一袋糖球都是 X 的一个独立观察结果，因此，每一袋糖球 
都符合相同的分布。即，如果用\代表随机选择的一袋糖球中的糖球 
数量，则每个 Xi 的期望都是 JX ， 方差都是 ct 2 。 

X , m 

E ( X .) = |i 
Var ( X ,) = a 2 

每一涤掮球中淤桷球 

现在，让我们取 n 包糖球作为样本，我们可以标记从乂 1 到乂 [> 的包装袋中 
的糖球数量，每个 Xi 都是 X 的一个独立观察结果，于是它们遵守相同的 
分布；每一个 Xi 的期望都是 JJL , 方差都是 cr 2 。 

我们可以用又表示这 n 袋糖球的容量均值，又的数值取决于 n 袋糖球中的 
每一袋糖球的容量，计算时，要将所有糖球的数量加起来，再除以 n 。 




X 




E ( X ) = |1 
Var ( X ) = a 2 


x 的鮮 m 





每个>^都 1 乂淤一个独立 
观察结票，函此每一浓桷 
妹中缺桷球麩耆都項桐间 
娩期望和方差. 


E ( x i > = M E ( X „) = || 

Var ( x i ) = ° 2 Var ( X n ) = a 2 


tr : 二以 


X 


x 1 + x 2 


X 


n 
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可以取出的大小为 n 的可能样本为数众多。每一个可能样本都包含 n 袋糖 
球，即每一个样本都包含 X 的 n 个独立观察 结果； 每一个随机选择的包装 
中的糖球数量都遵守相同的正态 分布； 我们以相同的方法计算每一个样 
本的糖球数量均值。 



样本均值又 


X 的鮮屯 



样本均值又 


我们可以利用从所有可能样本得出的所有样本均值形成一个分布，叫 
做“均值的抽样分布”，或叫做又的分布。 



每/个婵蜂都笆含 
八条桷瘅，和谪面 
晌婵 耷一# • 


样本均值 x 

这炎这个掸 蜂中 的每一 
漆桷球嬈掮球軚 s 珀值. 


这确实对我们唷帮助吗？ 
这铋告诉我们什么？ 


均值的抽样分布为我们提供了一种计霣样本均值的概率的方法。 

为了计算任何一个变量的概率，先要知道这个变量的概率分布，所以， 
若要计算样本均值的概率，就需要知道样本均值的分布。我们的例子是 
这 样的： 在一个有30袋糖球的样本中，求糖球数目的均值小于或等于 
8.5 的概率。 

和比例的抽样分布一样，为了能够动手计算概率，先要知道分布的期望 
和方差。 
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又的期望 

求又的期望 

前面讲过如何构建均值的抽样分布，即考虑所有大小为 n 的可能样 
本，然后用这些样本的均值形成一个分布。 

为了能用分布求岀概率，先要求出叉的期望和方差。让我们先求 
E ( X ) 0 

这里的又是样本中的每一袋糖球的容量均值 ，即： 

— Xj + x 2 + ... + x n 

X =- 

n 

其中 Xi 代表第 i 袋糖球的容量，我们可以利用它求岀 e (50。 


E ( X ) = E 



Xj + X2 + 


n 



这兩个表达式炎一掸 
的，只是写注嚷7 重. 




每/个 都包含 
函此 3 从 表达式^ 
提取电未.体据 & 

e ( ax ) = ae ( X )' 


( E ( + E ( X 2 ) + … + E ( X n )) 


即，只要我们知道每一个 乂 ; 的 期望，就能得出 E (又)的表达式。 


x \ 可 " I # 这个式3■拆兮态 八 个 

~ X n ) 单独的期 f . 函忌- • 
n / e(x + Y ) = e(x) + e(y)- 


这里的每一个 Xi 都是 X 的一个独立观察值，且我们已知 E ( X )= fji , 也就 
是说，可以用 P 代替上式中的各个 E ( Xi )。 


于是得到什么呢? 
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让我们用 P 代替各个 E ( Xi )。 




乂淤類 f 炎 P = 

适用子每一个 L 




= M- 




也就是说 E ( X)=jt ,即所有大小为 n 的可能样本的均值的平均数等于作为 
样本来源的总体的均值——实际上，你所求的是所有可能均值的均值。 

其实这十分符合直觉——总的看来，你会期望一个样本的每袋糖球平均 
容量等于总体的每袋糖球平均容量。在我们的具体例子中，总体的每袋 
糖球平均容量为10,因此，我们会期望样本也是如此。 


也票患体均值 基每条 ^ 赖杨 
妹，铧么，你可 " i 滟 f 傅峰 



为了求出样本均值的概率，我们还需要知道什么？你认为该怎么求？ 


又的方差 

X 的方*是多少？ 

前面得出了 E (又)的算法，不过，在计算样本均值的概率之前, 
我们还需要求出 Var (又)，这样就能朝着又的分布再迈近一步。 



又代表一个样本的糖球容量均值，因此又的分布代表所有可能样本的均 
值的分布。 E ( X ) 表示所有样本均值的均值，而 Var (又)指的是样本均值 
的变异情况。 


、_ 
醒靈 讎. 


求 Var (又)的过程其实与求 E (又)的过程十分类似。 
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B 


Var(X)=Var 



银计 f 祓贴 


通过下面这些算式可求出样本均值的方差的表达式。可惜，有 一部分 算式掉落了。你的任 


务是将磁贴放回原位，然后推导出样本均值的方差。 



提示：回矣复习 e (3 Z ) 
埝计莫过雅.这可铌 
会对你唷所帮助. 



= Var 





+ Var 




(Var( … + Var(X n )) 
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统计量磁贴解答 


£ 


铱计釁祓贴 

通过下面这些算式可求出样本均值的方差的表达式。可惜，有一部分算式掉落了。你的任 
务是将磁贴放回原位，然后推导出样本均值的方差。 



([£) H 0 





(Var( X,) + Var(X 2 ) + …+ Var(X n )) 



ix — a 2 
n 2 



被到这-♦故推科 
我痛实料減.料我们^ 
径浴料一叙们知 
道掸 耷珀值 会硝多太盖鼻. 


\J 


故较松 


要是完不成这个练习 
也别灰心，这个练习 
十分难。 


大多数考试委员会都不会要求 
推导这个算式，你只要记住结 
果就行了，我们只是为了让你看看这个算 
式的来历。 
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进行预测 


均值的柚样穸布__著 


让我们好好看看均值的抽样分布。 

先看总体 X 的分布， X 的均值为 JJL , 方差为 CT 2 , 因此 E ( X )= P 而 Var ( X ) = cr 2 。 

接着用来自总体 X 的所有大小为 n 的可能样本，形成所有样本均值的分布—— 
又的分布。这个分布的均值和方差计算 如下： 

E ( X ) = |i 

a 2 

Var ( X )= — 


又的标准差即方差的平方根，这个标准差可指出样本均值与^的可能偏离距 


离，因此被称为均值标准误差。 


均值标准賭 


n 越大，均值标准误差越小。也就是说，样本中的个体越多，作为总体均值 
的估计量的样本均值越可靠。 
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X 的分布 


又如何分布？ 

前面我们求出了的方差和期望，但还要知道又的分布，才能求出概率。 
让我们先看 X 为正态分布时，又符合哪种分布。 

下面是各种 ci 2 及 n 所对应的分布图，其中 X 符合正态分布。你注意 
到什么了？ 



各种情况下的又均符合正态分布，也就 是说： 

这絲 ㈣ 
谂珀值和方差. 

如果 X ~ N (| J , cr 2 >， 则 X ~ N (| I , a 2 ln ) 


俚包装粢中的掮球数 
目苻合正态今邡吗？ 
要是禾符合怎 么办？ 


o 


X 可能不符合正态分布。 

为了算出样本均值的概率，我们需要知道又的分布情 
况，问题是，我们并不知道 X 如何分布。 

我们需要知道，如果 X 不符合正态分布，又符合什么 
分布。 
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当 h 很大时，又仍然玎认用 正态分 布近似 

随着 n 增大，又越来越接近正态分布。我们已经知道，当 X 符合正态分布 
时，又符合正态 分布； 如果 X 不符合正态分布，但如果 n 足够大，我们仍 
然可以用正态分布近似的分布。 

现在的情况是，我们知道总体的均值和方差，但却不知道总体的分布。 
不过，这没关系，由于样本大小为30,我们还是能用正态分布求又的概率。 

这叫做“中心极限定理”。 


认识 中心极照定理 

中心极限定理 是指： 如果从一个非正态总体 X 中取出一个样本，且样本 
很大，则叉的分布近似为正态分布。如果总体的均值和方差为 p 和 cr 2 , 
且 n 很大，例如大于30,贝 IJ : 


V ilt) ' 

X 〜 N (| I , a 2 / n ) ^ “方盖 


是不是觉得很熟悉？这和 X 符合正态分布时的情况是一样的。唯一的 
差别是，当 X 符合正态分布时，样本的大小无所谓。 


糇据中肋輾眼定理，迎果 X 的祥取很大，則 I 的分布近愀 
为圧恣分布。 
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中心极限定理 


使用中心极照定理 

在实践中，中心极限定理有什么作用呢？让我们看一看。 

二顼分布 

假设你有一个总体，用 X ~ B ( n , p ) 表示，其中 n 大于30。如前所述， = np , 
or 2 = npq . 

根据中心极限定理，在这种情况下 ， X ~ N (^, O 2 / n ) 0 为了求出 X 的分布， 

我们代入总体的数值，即，代入 fJi = np 和 cr 2 = npq , 得到： 

_ 对子二项兮谇，患体均值态呷，方£糸呷 心办蓽 

X - N(np, pq) t 一~ 将这瘙 式务代 入抽#兮沛， Pl ' HI - i !) x ~ N (^ p ^). 


泊松分布 

现在，假设总体符合泊松分布乂 ~ Po (\), n 还是大于30。对于泊松分布来 
— X o 

和以前一样，我们可以借助正态分布求出 CT 2 的概率。如果将以上总体参数 
代人 X ~ N ( fju , cr 2 / n ), 得到： 

对子祕权兮诈束说，珀值和 f 差都态 X . 将这 
X ~ N(A., Xln) 喽参麩代入抽样兮邡 . ^f'Jx~N(x, x/a.). 

一般情况下，会使用分布 X ~ N ( jt ,( r 2 / n ), 并代人 p 和 a 2 的数值。 


求出槪率 

由于叉符合正态分布，于是可以用标准正态概率表查找概率，也就是说, 
其他正态分布的算法完全适用于你的情况。 
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让我们用以上结论解决曼帝糖果公司的问题。 

每袋糖球的均值为10,方差为1,如果抽取一个有30袋糖球的样本，那么样本均值小于等 
于 8.5( 颗/袋)的概率是多少？请按照给出的步骤进行计算。 


1. 又符合哪种分布？ 


2. P ( X < 8.5) 的数值是多少？ 


第 11 章 总体和样本的估计 483 



练习解答 


让我们用以上结论解决曼帝糖果公司的问题。 

每袋糖球的均值为10, 方差为1, 如果抽取一个有30袋糖球的样本，那么样本均值小于等 
于 8.5( 颗/袋)的概率是多少？请按照给出的步骤进行计算。 

1. X 符合哪种分布？ 

我们已知 X ~ N( , (tVa) , H = 10 . CT 2 = J , ifl - = 30, 而 V 30 = 0.0333. 子是得 Ji]: 

X ~ N ( JO , 0 . 0333 ) 


2. P ( X < 8.5) 的数值是多少？ 

由子 X ~ N ( 10 , 0 . 0333 ), 我们需要系 8.5 蜍标准今. >4便铋够在概率泉中查找结票. 得刭： 

8.5 - 10 
Z = - — — 

V 0.0333 

= -8.22 (保留两值小數) 

P ( Z - < z ) = P ( Z , < -8.22) 

这个概率太小了，函此来出现在概率表中.我们可 ..1 认糸概车也此之小蜍穿件几夺禾会出现. 
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世上没布傻问题 


进行预测 


P 5 ) :中心极限定理要求进行任何 
连续性修正吗？ 

^ : 问得好，回 答是： 不用。你 
使用中心极限定理求出的概率与样本 
均值有关，而与样本中的数值无关。 
因此不需要进行任何连续性修正。 


f 5 ) :点估计量和抽样分布之间有 
关系吗？ 

^ : 有关系。让我们先看均值。 
总体均值的点估计量为 X, 即 （1 = 
X 。 那么均值的抽样分布的期望则为 
E (又 )= p 。 全部样本均值的期望等于 
JJL ,我们可以用样本均值估计 | X 。 

与此相似，总体比例的点估计量为 
P ,即样本比例，也就是 Sp = P ,。 如 
果我们取全部样本比例的期望，可得 
E(P,)=p。 全部样本比例的期望等于 p, 
于是我们可以用样本比例估计 p 。 

对于方差，我们就不打算在这里进 
行证明了，但结果相似，即： 

<t 2 = s 2 , E(S 2 ) = a 2 0 


|»):这是巧合吗？ 

^ : 这并非巧合，估计量是这样 
选 择的： 以同样方法抽取大小为 n 的 
大量样本，使得这些样本的期望等于 
总体参数的真值。如果做到了这一点， 
我们就说这些估计量是无偏估计量。 

无偏估计量有可能准确无误，这是 
因为，从所有可能样本的平均情况 
上看，可以期望该估计量等于真实的 
总体参数。 

f 5 ) :标准误差与此有何关系？ 

^: 总体参数的最佳无偏估计量 
通常为方差最小的估计量，即标准误 
差最小的估计量。 


9 

_女 I 


要点 


如果考虑同一个总体中所有大小为 n 的可能样 
本，然后用这些样本的均值形成分布，则该分 
布为“均值的抽样分布”，我们用又表示样本均 
值随机变量。 


■ 又的期望和方差的定义 式为： 

E(X) = M 
Var(X) = a 2 /n 

其中 M 和 & 为总体的均值和方差。 


“均值的标准误差”等于该分布的标准差 ，即: 
Vvar ( X ) 

如果 X - N( p , a 2 ), 则 X~N(m,<t 2 /n). 

中心、极限定理说 的是： 如果 n 很大且 X 不符合正 
态分布，贝 IJ : 


X ~ N( m , cr 2 /n) 
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糖球抽样万岁 


紬样结果杻转筘坤 f 
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12 1 信 g 问的构建 


# 自信地-测參 



我把这道策敌在銬箱里 
抹 2. 5小时，孓过要是你 


妹的话，就用5个小 


时吧，准没错儿. 


有时候样本无法给出足够正确的结果。 

前面讲到如何用点估计量估计总体均值、方差或一定比例的精确值。问题在于，你 
怎么能肯定自己的估计完全正确？毕竟，你仅仅依靠一个样本对总体作出假设，如 

果这个样本出问题怎么办？本章将介绍另一种估计总体统计量的方法-种考虑 

了不确定性的方法。拿出你的概率表，我们将向你讲解置信区间的来龙去脉。 
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另一次口味测试 


1帝糠果出事了 

曼帝糖果公司的首席执行官大做广告，他言之凿凿、满怀骄傲 
地宣布了超长效糖球的口味持续时间——精确到秒。 


可是 


我们碰剎麻颊了.唷人 
自行作了测试，得出了孓 
同鲶结票.他们威胁说要 
告我们，这可是要龙钱鲶. 


曼帝糖果公司用一个包含100粒糖球的样本得出口味持续时间均 
值的点估计量为 62.7 分钟，同时总体方差的点估计量为25分钟。 
首席执行官在电视节目黄金时段 宣布： 糖球口味的平均持续时间 
为 62.7 分钟。这是根据手头证据有可能得出的最可靠的口味持续 
时间估计，可要是略有差池，那该怎么办？ 

如果有人因为曼帝糖果公司的广告和他们打官司，公司就会又赔 
钱又丢生意。他们需要你帮忙摆脱困境。 

他们熏要 ^手 相救。 



动动膊 



你认为错在哪里？曼帝糖果公司是否应该用点估计量的精确值做广告？为什么？ 
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精度引起的问题 


如上一章所讲，点估计量是我们有可能给出的总体统计量的最佳 
估计。你取用最具代表性的数据样本，以此估计总体的主要统计 
量，如均值、方差、比例，这意味着超长效口香糖球的口味持续 
时间均值的点估计量是我们有可能给岀的最佳估计。 


点估计量的推导过程存在这样的 问题： 我们依赖来自唯一的一个 
样本的结果得出非常精确的估计。我们想了很多办法，确保样本 
无偏，使样本尽量具有代 表性； 但对于这个样本是不是能100%地 
代表总体，我们并没有绝对的把握，原因很简单一我们用的是 
样本。 


打值！你是说点诂计量 
禾崧闲？千辜万苦蓴束 
龙去，到灰来却说不胳 
用？ 


点估计屋是有价值的，但也许存在小小的误差。 

由于我们并没有使用整个总体，归根结底，我们只是得到了最佳 
估计量。如果我们所用的样本无偏，则这个估计量很可能接近总 
体的真值。问题是，多接近才算“够接近”？ 

与其给出一个精确值作为总体均值的估计值，不如采用另一种方 
法。我们可以指定某个区间一而不是用一个十分精确的时间长 
度，作为糖球口味持续时间的估计。例如，我们可 以说： 我们期 
望糖球的口味持续时间为55至65分钟，这仍然会让听者觉得糖球 
口味持续时间接近1小时，但却留有更大的误差空间。 

问题是，我们如何确定区间？这就看你希望自己对结果有多大自 
信了…… 



全面了解置信区间 


认识蚤 信区间 


此前，我们以样本数据为基础，利用点估计量估计了糖球口味持续时间 
的均值，通过点估计量，我们能够给出糖球口味平均持续时间的非常精 
确的估计。下面这张图体现了糖球样本口味持续时间的分布。 



A 一 

M = x 


那么，如果我们为总体均值指定一个区间，情况会怎么样呢？我们不指 
定一个确切的数值，而指定两个数值——我们期望糖球口味持续时间介 
于这两个数值之间。我们让均值的点估计量处于这个区间的中央，并将 



选择区间上下限是为了让“总体均值介于 a 和 b 之间”这一结果具有特定 
概率。例如，你可能希望通过选择 a 和 b , 使得该区间中包含总体均值的 
几率为95%。也就是说，所选择的 a 和 b 使得： 


P(a < |ju < b) = 0.95 


我们用 ( a , b ) 表示这个区间，由于 a 和 b 的确切数值取决于你希望自己对于 
“该区间包含总体均值”这一结果具有的可信程度，因此， （ a , b) 被称为置信 
区间。 

那么，我们如何求总体均值的置信区间？ 
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自信地猜测 


求蘚1信区问四步骤 

下面是求解置信区间的几大步骤。要是没办法一下子弄明白每个步骤的 
目的，别担心，我们很快会具体讲解。 


上- O 


1指希 ¥ 构連® ■信运 1 司換 

选择总体统计霣 

患钵说竹量 • 

抽样今部 • j 

o 

求出其抽样分布 

f 一你逸#鹼 (3 ■同中包含该说计耆的概率 

决定置信水平 

o 

求出置信上下限 

^ ~ 我们需要 

知道置信水早和抽相[今沛 • 


让我们看看是否能够替曼帝糖果首席执行官构建一个可以进行广告宣 
传的置信区间一 U : 我们求出糖球口味持续时间均值的置信区间。 


|»): 你能为 任何一 个总体统计量 
构建一个置信区间吗？ 

答： 一般说来，只要知道抽样 
分布，就能为任何总体统计量构建 
置信区间。我们已经讲过均值和比 
例的抽样分布，因此能够为这两个 
统计量构建置信区间。 


世 J : 没布儍问题 

1»):方差呢？我们能为方差构建 
置信区间吗？ 

^ : 理论上是可以的，不过我 
们还没有讲过方差的分布，也不打 
算讲。较为常见的做法是构建均值 
和比例的置信区间，统计学考试往 
往考这些内容。 

fo ) :上面这些步骤是和均值的置 
信区间有关系还是和比例的置信区间 
有关系？ 

^: 这些步骤对于二者是通用 

的——既可以用于总体均值，也可以 
用于总体比例。 


1»):总体的分布情况是否有关系？ 

^: 关键在于你要为之构建置 

信区间的统计量的抽样分布，如果 
想求均值的置信区间，就要知道均 
值的抽样 分布； 如果想求比例的置 
信区间，就要知道比例的抽样分布。 

总体分布对置信区间的主要影响在 
于它对抽样分布的影响。我们随后 
加以阐述。 
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逐步构建置信区间 


第1 步： 迭择总 体统计 1 


第1步是选取要为之构建置信区间的统计量，这取决于要解决的实际 
问题。 


在我们的实例中，需要为口香糖球口味持续时间的均值构建一个置信 
区间，于是就需要为总体均值 A 构建一个置信区间。 

选好总体统计量，就可以进行下一步了。 

第2 步： 求出所选统计1的紬桴分布 

为了求出总体均值的抽样分布，我们需要知道均值的抽样分布，即需 
要知道又的期望和方差以及其分布。 

让我们先求期望和方差。回顾上一章的内容，我们知道均值的抽样分 
布的期望和方差为： 


E ( X ) = jjl Var ( X ) =-^- 

为了利用以上结果求出( X 的置信区间，我们代人总体方差的数值 (T 2 和 
样本大小的数值 n 。 



我们不代入 M 的数值，这是因为我们正在为这个数值求置信区间。 

我们正在利用抽样分布求 K 的置信区间，因此，除了 JJL 以外，我们代 
人所有数值。代人 cr 2 和 n 之后，就能用 X 的分布求出置信区间，我们 
很快就会进行说明。 

只有一个问题——我们并不知道 a 2 的真值，必须根据样本进行估计。 
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自信地猜测 


点估计 1出手相救 

那么用哪个数值作为 (T 2 值呢？ 

尽管我们不知道总体方差 a 2 的真实值，却可以用它的点估计量进行 
估计。于是我们代人护，或者叫做 S 2 , 而不是 ( T 2 。 


于是均值的抽样分布的均值和方差等于： 


E(X) = jjl 


Var(X) 


s 2 




曼帝糖果公司用包含100颗糖球的样本计算估计值，并算得 s 2 = 25, 
于是： 

— s 2 

Var(X =— 
n 

25 

~ 100 
= 0.25 

还有一事 待定： 为了能求出^的置信区间，我们需要清楚地知道又的 
分布。 


Wijf 

- ^ 


假定 X ~ N ( m , cj2), 且样本包含的数目很大。又符合哪种分布？ 
用前面算出的 E (又）和 Var ( X ) 来帮忙。 
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动动笔解答 




假定 X 〜 N(M, a 2 ), 且样本包含的数量很大。又符合哪种分布？ 
用前面算出的 E (又)和 Var ( X ) 来帮忙。 


也票 x 符合正态今讳，那么 x 也苻合正态今讳，代入 a 2 的点诂计量，得到: 


或 


X ~ N( 4 , SViaJ 


X ~ N (4,0.25) 


我们 B 经求出了 5( 的分布 


既然已经知道 X 的分布情况，我们就有了足够的信息，可以进入下 
一步 。 

第 多步： 决定 I 信水乎 

置信水平表明你希望自己对于“置信区间包含总体统计量”这一说法 
有多大把握。例如，假设我们希望总体均值的置信水平为95%,这表 
示总体均值处于置信区间中的概率为0.95。 



汹桐应概率备 0 . 95 . 


一_动动滕- 

你觉得置信水平对置信区间的大小有何影响？ 
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自信地猜测 


如何选綠含结的 I 信水乎 

那么由谁来决定置信水平？多大的置信水平才合适？ 

答案完全取决于你的具体情况以及你需要对“区间中包含总体统计 
量”这一说法有多大信心。常用的置信水平是95%,但有时候你可 
能会另有要求，如90%或99%。例如，曼帝糖果公司首席执行官希望 
对“总体均值位于置信区间之中”这一说法有更大的信心，这样他 
才能在电视中广而告之。 

关键是记住这 一点： 置信水平越高，区间越宽，置信区间包含总体 
统计量的几率越大。 


嘁.忌什么不把罝信£间鼻得 
足#宽呢？这掸就啃定铋把说 
计量包含在其中了. 


把置信区间弄得太费的问题是：置信区间会失去其意义。 

举个极端 例子： 我们可以说糖球口味持续时间的均值在0至3天之 
间。这固然不错，但你却无法据此知道糖球口味实际上能持续 
多久——不知道持续时间是几秒，几分钟，还是几小时。 

关键在于，要让区间尽可能窄，但又要足够宽，这样才能合理 
地相信真正的均值就在区间之中。 

让我们为曼帝糖果公司选用95%的置信水平，如此一来，区间中包 
含总体均值的概率就很高了。 

既然已经选定了置信水平，就可以进人最后 一步： 求出置信上下限。 
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置信上下限 


第 4 步： 求出 S 信上 T 照 

最后一步是求 a 和 b ——置信区间的上下限，上下限指出一个范围的 
左右边界 一 均值有95%的概率落人这个范 围中。 3和13的确切值取 
决于需要使用的抽样分布以及需要具有的置信水平。 

对于我们的实例，需要让糖球口味持续时间均值具有95%的置信度， 

即，位于我们求得的 a 和 b 之间的概率必须为0.95。我们还知道 ，X 
符合正态分布，其中 X ~ N ( jt ,0.25)。 

下面是我们需要使用的一张 草图： 我们龙要选样 ' 



毐一备尾巴是0.0 25 . 


利用 X 的分布我们可以求出 3 和15的值。即，我们可以利用 0.25) 
求岀 a 和 b , 例如 P(X < a ) = 0.025 和 P(X > b ) = 0.025。 






先求 z 


自信地猜测 


为了能够利用正态分布表，先对又进行标准化。我们已知又 ~ N (| X ,0.25), 
于是，经过标准化计算， 得到： 

其中 Z ~ N (0, 1) 

V 025 

下面是经过标准化的置信区间 图形： 



我们需要求出 z a * z b , 其中 P ( z a < Z < z b ) = 0.95, 即标准置信上下限 
为 z a 和 z b , 其中 P(Z < z a ) = 0.025 且 P(Z > z b ) = 0.0255。利用概率表 
可以求出 z a 和 z b 的值。 


-动笔 


我们需要求出 z a 和 z b ,使得 P ( z a < Z < z b ) = 0.95。 


1. 使用概率表求出 Z a & 数值，使得 P ( Z < z a ) = 0.025。 


2. 使用概率表求出 Z b 的数值，使得 P ( Z > z b ) = 0.025。 
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动动笔解答 


我们需要求出 z a 和 z b ,使得 P ( z a < Z < z b ) = 0.95。 

1. 使用概率表求出 Z a & 数值，使得 P ( Z < z a ) = 0.025。 

在标准概率泉中查找0.0 25 , = - 1 . 96 . 

2. 使用概率表求出 Z b 的数值，使得 P ( Z > z b ) = 0.025。 

对子 ib . 需要查找0. 975 ,得 Z t = I . 96 . 


用 | a 改豸不等式 


到此为止，我们求出了置信区间的标准形式，得到 
P (-1.96 < Z < 1.96) = 0.95, BP ： 



动笔 
、‘斛著 
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自信地猜测 





你的任务是改写 -1.96 〈(又 -m )/0. 5<1.96, 
得出 M 的置信区间。从池中取出零星公 
S 式，放在空白的横线上。每一个公式 
碎片的使用次数不得超过一次。 



说明：池中的每一个 
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奇妙池解答 



眘炒港解者 

你的任务是改写 -1.96<( X - m )/0.5< 1.96, 
得出 M 的置信区间。从池中取出零星公 
式，放在空白的横线上。 每一个 公式碎 
片的使用次数不得超过 一次。 


这炎禾專貳左边. 


-1.96 <" 


X-M 


0.5 


-1.96 x 0.5 <X-n 


-0.98 +M<X 


M< X + 0.98 


X - M 

-1.96 <-< 1.96. 

0.5 


这是豕著式右边 

X-M 


< 1.96 


0.5 


X-|J< 196 x 0.5 
X < 0.98 +M 
X-0.98 <m 


X - 0.98 < m < X + 0.98 


说明：池中的每一个 



因式只能用一次! 
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自信地猜测 


最后求又的数值 

写出不等式后，我们就非常接近描述糖球典型 U 味持续时间的数 
值—— 卜的置 信区间。即，我们 使用： 

P ( X - 0.98 < JJL < X + 0.98) = 0.95 


下面是 草阁: 
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动动笔解答 


动笔 
~解奢 


置信上下限分别为 X - 0.98 和 X + 0.98, 对于曼帝糖果公司 
的样本，又为62.7。请使用这个数值求出置信上下限的数值。 


罝信上下限今别忌 x - 0. 98 和 x + 0. 98 . 也票 代入掸净均值.则置信上下限著子 62 . 7 
即置信 S 同忌⑷. 72 , 63 . 68 ). 


0 . 98 和 62.7 + 0.98, 


你求出？1信区问 

祝贺！你旗开得胜，求出了一个置信区间。你的结论 是：区 
间 (61.72,63.68) 中包含糖球口味持续时间总体均值的几率是 


95 %。 



首席执行官在电视广告中用置信区间取代了点估计量，给出了对 


糖球口味持续时间的准确而精确的估计，却不必提到精确的数 
字一就算样本有误差也还有周旋余地： ■ 
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自信地猜测 


步骤总结 

让我们复习一下前面讲过的置信区间的构建步骤。 

首先选择用于构建置信区问的总体统计量。我们需要求出糖球口味持 
续时间均值的置信区间，于是需要构建 P 的置信区间。 

确定了用于构建置信区间的总体统计量后，接着求其抽样分布。我们 
求得均值的抽样分布的期望和方差，代入除 K 以外的各个统计量的数 
值，于是发现我们可以使用又的正态分布。 

随后，我们确定了用于构建置信区间的置信水平——95%。 

最后必须求出置信区间的 R 信上下限。我们利用置信水平和抽样分布 
得出了合适的置信区间。 
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置信区间小抄 


1信 g 间简便箕法 

下面是一些实用的置信区间简便算法。你只要査看要求的总体统计量、总 
体分布以及各种条件，然后代人总体统计量或其估计量，就行了。数值 C 
取决于置信水平。 



一般如何 i 十萁区间？ 

一般情况下，置信区间的计算 式为: 


统计屋± (误差 范围} 


误差范围等于 C 与检验统计量的标准差的乘积。 


菊这瘙 軚值* ^ 



误差范围 = C X (统计渥的标准差） 
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自信地猜测 




曼帝糖果公司抽取 了一个 大小为50的样本，发现样本中的红色糖球的比例为0.25。请为总 
体中具有 这一比 例的红色糖球 构建一 个置信水平为99%的置信区间。 
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练习解答 


I 


曼帝糖果公司抽取 了一个 大小为50的样本，发现样本中的红色糖球的比例为0.25。请为总 
体中具有这一比例的红色糖球构建一个置信水平为99%的置信区间。 


总体比例的置信 S 同基: 



我们需要彤 99 系置信水年蜣置信区同. 函此 0= 2 . 58 .红色麴球蜣比例忌0. 25 ,子是 p s =0.25 且 
\ = 0.75, ^=50 , 子是 得出： 



= (0.25 - 2.58 x 0 . 0612 , 0.25 + 2.58 x 0 . 061Z ) 
= { 0.25 - 0 . 158 , 0.25 + 0 . 158 ) 


(0.092, 0.408) 
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| o ) :之前求 又的期 望和方差的时 
候，为什么代入 CJ 2 的点估计量，却不 
代入 M 的点估计量？ 

^ : 由于我们需要求的正是 fJL 
的置信区间，因此不用又代替我 
们需要求出含有 JJL 的表达式，以便 
求出置信区间。 

1»):为什么用 5 T 作为又的值？ 

^ : X 的分布即均值的抽样分 
布。它是这样 来的： 从总体中取出 
每一个大小为 n 的可能样本，然后用 
所有的样本均值形成一个抽样分布。 

7是来自样本的特定均值，于是我们 
借助它求出置信区间。 

1»): 置信区间和置信水平有何 

区别？ 

^ : 置信水平是“统计量处于置 
信区间之中”的概率，通常是一个百 
分教，例如95%。置信区间则给出了 
区间本身——数字实际范围的上下限。 


世上没布儍问题 

|»): 我们已经求得 M 的95%置信 

区间为 (61. 72, 63.68), 这究竟意味着 
什么？ 

^: 这意 味着： 如果你打算抽 

取大小相同的多个样本，然后为所有 
这些样本构建置信区间，则这些置信 
区间中有95%会包含总体均值的真实 
值。你由此知道，用这种方法构建的 
置信区间在95%的情况下都将包含总 
体均值。 

1»): 简便算法中的 c 适用于所有 

置信区间吗？ 

^: 它们适用于所有我们讲过 

的简便算法，这是因为这些简便算 
法都基于正态分布——所给出的各种 
条件下的抽样分布都符合正态分布。 

(») : 我曾经看到置信区间的简便 
算法中用的是 “ a ” 而不是 “ c ” ， 有 
错吗？ 


^ : 完全没错。关键在于，无 
论你把这个数字叫做 “ a ” 还是叫 
做 “ c ” ，它所代表的总是你代入 
置信区间以便达到合适的置信水平 
的那个数——无论如何称呼，教字 
总是一样的。 

1«): 是否所有的置信区间都基于 
正态分布？ 

^ : 并非如此。我们随后会讲 
到基于其他分布的区间。 

1»): 既然只要在简便算法中代入 

数值就行，为什么讲那么多步骤呢？ 

^: 讲这些步骤是为了让你看 

清楚问题实质，理解置信区间的构 
建过程。大多数时候，你只要代入 
数值就行了。 

R : 使用置信区间时需要进行连 

续性修正吗？ 

^: 理论上是要的，不过实践 

中常忽略不计，也就是说只要在简 
便算法中代入数值算出置信区间就 
行了。 



置信区间两雉问题：第二部分 


还布一个问题 


曼帝糖果公司最后还有一个问题需要你解决。有一家糖果店想知道 
糖球的典型重量，原因是他们发现顾客往往按照重量购买糖球，而 
不是按照数量购买。要是糖果店知道糖球的典型重量，就能利用这 
个信息进行促销。 



曼帝糖果公司抽取了一个具有代表性的样本，共10颗，然后 
称了每一粒糖球的重量。这个样本的 7 = 0.5 盎司， s 2 = 0.09 。 

我们如何求出置信区间？ 

第 1 步： 选择总体统 i 十量 

第1步是选取要为其构建置信区间的统计量。我们需要为糖球重量均 
值构建一个置信区间，也就是要为总体均值^构建置信区间。 

由于需要求 k 的置信区间，于是下一步就是求 K 的抽样分布—— X 的 
分布。 




动动膊 


假设总体中的每 一粒糖 球的重量都符合正态分布，你如何为这个数据建 立一个 95%置 
信区间？ 提示： 查看前面的置信区间简便 算法一 览表，看看我们符合哪种条件。 
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自信地猜测 


第2 步： 求又的概挛分布 

那么，又符合什么分布呢？ 



o 


并非任何情况都能用正态分布进行良好近似。 

我们前面讲过的所有抽样分布要么符合正态分布，要么可以用正态 
分布进行近似。问题是，我们无法对每一个置信区间都使用正态分 
布。不巧，目前碰上的就是这种不能用正态分布的情况。 

不能用正态分布的原因何在？ 

当抽样很大时，正态分布是求解置信区间的理想分布——能得出精 
确结果，且与总体本身是否是正态分布无关。 



现在我们碰到了另一种情况——尽管 X 本身符合正态分布，又却并不 
符合。 



主要原因有二。 

第一，我们不知道总体方差的确切值，因此必须利用样本数 
据估计 CT 2 , 我们可以通过点估计量轻松地完成这项工作，但 
是，还有第二个 原因： 样本太小，估计值很有可能出现较大误 
差——比使用大样本的误差要大得多。这些潜在的误差意味着 
使用正态分布无法得出足够精确的又的概率，那样就无法得岀 
精确的置信区间。 

那么，又符合哪种分布呢？实际上，它符合 t 分布。让我们具体 
看看。 



置信区间的构建 
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认识 t 分布 


当桴本很小时， X 符含 j 分布 

当总体符合正态分布， CT 2 未知，且可供支配的样本很小时，又符合 t 分 
布——这种分布正好可以用来处理我们面临的问题。 


t 分布是外形光滑、对称的曲线，确切形状取决于样本大小。当样本很 
大时， t 分布外形很像正态 分布； 当样本很小时，曲线较为扁平，有两 
条粗粗的尾巴。它只有一个参数—— v , v = n-U n 为样本的大小， v 

被称为自触。个 - _会在心 4 章中更深 

入地探讨自 由度. 

让我们看看下面这 张图： 这是各种 V 对应的 t 分布。你能看出 V 对分布 
形状有什么影响吗？ 



“ T 符合 t 分布且自由度为 V ”的简明表示方 法为： 

t ( v ) 象示： 仙正在 ㈣ 自 由度务 

T 态检验 M 了 ~ 如 )= V = KV-1 . 

竹其方这见下 一负. 

t 分布的使用方法与正态分布相似一先将概率区间的上下限转化为标 
准分，然后用概率表求出所需要的结果。 

让我们先求标准分。 
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求 t 分布的标准分 

t 分布的标准分的计算方法与正态分布的标准分的计算方法相同。像 
处理正态分布一样，我们先减去抽样分布的期望，然后用所得到的差 
除以标准差。唯一的差别是，我们用 T 而不是 Z 代表结果，这是为了 
配合 t 分布的使用。 

我们需要求出又的分布，于是要用到又的期望和标准差。又的期望 
为标准差为 cr / n 。 由于需要用 s 估计 (7 的数值，于是 t 分布的标准 
分的算式 如下： 


这炎 总钵 幼值.我们正在氺其置 

这个公式和乙淤计其公式 X - 信 (i 同 • 

-铒一威去槪 除.作准差.一这炎又祕准基. 

我们只要代人又、6和 n 就行了。 


动笔 


让我们看看如何将以上结果应用于曼帝糖果的 抽样： 
抽样中共有10粒糖球，其中 i = 0.5 盎司， s 2 = 0.09。 
v 的数值是多少？ T 值又是多少？ 
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动动笔解答 

「 动动笔 - 

让我们看看如何将以上结果应用于曼帝糖果的抽样 
^ 抽样中共有10粒糖球，其中又 = 0.5 盎司， s 2 = 0.09 

v 的数值是多少？ T 值又是多少？ 

掸 净斿唷 10粒麴淖 ， v = ^- J , 即 V 蜣數值易 9. 

T 针其 也下： 
x- 4 

T =- 

S/a/Tv 

X - H 

Vo, 09/10 
= X-M 
0.0949 


第3 步： 决定 I 信水乎 

那么该为曼帝糖果选用哪个置信水平呢？ 记住： 置信水平指的是你希 
望自己对“置信区间包含总体统计量”这个说法有多大信心，它帮助 
我们指出置信区间应该有多宽。像以前一样，让我们用95%作为总体 
均值的置信水平，于是总体均值位于置信区间之中的概率为0.95。 



既然已经有了置信水平，我们就能进人最后一步——求^的置信区间。 


512 深入浅出统计学 





自信地猜测 


第 斗步： 求出 S 信上7照 


t 分布的置信上下限的算法类似于正态分布的算法，即可通过下式进 
行 计算： 


X 


Vn 


» x 


而‘ 


其中 


这个武 吝和前面见迓 的式孑 

\ t< ~' 4 一捭淤，只不 ■ii 用 t 代替了〜 


P(-t < T < t) = 0.95 


專子 o . 95 , 这是函洽我 
匕-们希 f 尔 95 吝 f 信区阂 • 


t(v) 



我们可以通过 t 分布概率表求出 t 值。 

使阁 t 分布概率表 

通过 t 分布概率表可求出 P(T > t ) = p 中的 t 值。在我们的实例中， 
p = 0.025。 

为了求出 t 值，先从概率表中査找第一列的 V 值，再查找第一行 
的 p 值，二者的交点处即为 t 值。例如，查找 v =7 和 p = 0.05, 可得 
t = 1.895。 


- *(v) 



求出 t 值后，就能求置信区间了。 


0.05 
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置信区间练习 




看看能否求出糖球平均重量的95%置信区间。样本包含10粒糖球，且又 
盘司， s 2 = 0.09。 


1. m 的置信区间等于（又 -t s / Vn , x + t s / Vn ), 使用标准概率表求 t 值。 


2. 用 t 值求 M 的置信区间。 


514 深入浅出统计学 


自信地猜测 


t 分布鸟正态分布 ft 餃 




在用小样本估计总体方差时， t 分布更精确。 

基于小样本估计 (T 2 有一个问题，即可能无法精确地反映总体 
方差的真实值。也就是说，我们需要让区间变宽，以便在置 
信区间中留出一些误差空间。 

t 分布的形状随着 V 值发生变化，由于考虑了样本的大小，即 
使 (T 2 的估计精度存在各种足以让人有所察觉的不确定性 ， t 
分布也能忽略不计。当 n 很小时， t 分布给出的置信区间比正 
态分布的置信区间更宽，这使它更适合用于小样本。 


1信 g 间简硪箕法 - t 分布 

下面是有关 t 分布的使用时机以及 fJL 的置信区间的简单提示。 


总体统计量 

总体分布 

条件 

置信区间 


正态或非正态 

CT 2 未矢口 

n 很小 （ 小于30 ) 

又为样本均值 

S 2 为样本方差 

( X - t ( v ) — , X + t ( v ) — ) 

\ Vn Vn / 


为了求出 t ( v ), 需要查找 t 分布概率表。为此，用 V = n -1 和你确定下来的置信水 
平求出置信区间。 
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练习解答 


看看能否求出糖球平均重量的95%置信区间。样本包含10粒糖球，且又= 0.5 
盘司， s 2 = 0.09。 

1. m 的置信区间等于（又 - t s/Vn, x + t s/Vn), 使用标准概率表求 t 值。 

掸啐中唷 M 粒麴球，函此乂= 9 .我们希 f 东虫 95 吝置信区间，即需要在 t 今沛概率泉中查找0.0 25 ,自由 
度糸 9 .子是得 出 ： t =2.262. 




I 


2 . 用 t 值求 M 的置信区间。 

我们将又、 t 、 s 和八代入仄- ts/^,x + ts / VS ) 系置信区同， 得到： 

( x-t S/V^, x + t S/Vi^) = (0.5 - 2.262 x V (0.09/7 0), 0.5 + 2.262 x >/(0.09/7 0)) 
=(0.5 - 2.262 x 0 . 0949 , 0.5 + 2.262 x 0.0949) 

=(0.5 - 0.275, 0.5 + 0.275) 

=(0.285, 0 . 715 ) 
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曼帝糖果公司发现他们的装糖机出问题了。他们抽取了30台机器作为样本，发现故障次数 
均值是15。请为每月故障次数构建一个99%置信区间。 
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练习解答 




曼帝糖果公司发现他们的装糖机出问题了。他们抽取了30台机器作为样本，发现故障次数 
银习 均值是15。请为每月故障次数构建一个99%置信区间。 

斛著 

每用故陣攻數符合鉍枳今邡横型，由子唷台机器，我们可4用（灭 - cs / t , 天 + cs / V ^) 弟斛罝信区同. 

我们需要形99吝置信 区同， 子是0 = 2 . 58 .括枳今沛蜍期 f 和方差 都著子 X ,函此? 5 且 s 2 = ? 5 . 

置信 g 同计其 也下： 


(X-&S/V^,x + OS/Vi^) = (15 - 2.58 X V(J5/30), 15 + 2.58 x V(J5/30)) 


(15 - 2.58 x N ( 15 / 30 ), 15 + 2.58 x y /( 15 / 30 )) 
(75 - 2.58 x 0.707, 15 + 2.58 x 0 . 707 ) 

(15 - 7.824, 75 + 1 . 824 ) 

( 13 . 176 , 16 . 824 ) 


世上 没布儍问题 


1«):又符合 t 分布吗？ 

^: 当总体符合正态分布而样本很小时， x 符合 t 分 

布，这时需要使用样本数据估计总体方差。 

|»): 一般 说来，如果置信水平发生改变，对置信区间 
会有何影响？ 

^ : 如果置信水平下降，则置信区间 变窄； 如果置 
信水平提高，则置信区间变宽。例如，对于一组相同 
的数据，95%置信区间将比99%置信区间更窄。 


1»): 如果样本大小 n 发生改变，对置信区间会有何影响？ 

^ : 如果 n 减小，则置信区间 变宽； 如果 n 增大， 
则置信区间变窄。 

置信区间的表达 式为： 

统计量±误差范围 

其中，误差范围 =cx 统计量的标准差。 

统计量的标准差取决于样本的大小一 n 越大，统计量 
的标准差越小；这就是说， n 越大误差范围越小， n 越 
小误差范围越大。 

一般说来，较小的样本形成较宽的置信区间，较大的样 
本形成较窄的置信区间。 
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I 信 g 间求出采了 .r 

你再本章进步很大——所以现在你有两种估计总体统计量的方法了。 

第一种估计方法是使用点估计量。点估计量方法可用于估计总体 
统计量的精确数值，是根据样本数据有可能做出的最好猜测。 

另一种估计方法是使用总体统计量的置信区间。这个方法得到的 
并非总体统计量的精确估计，而是求出总体统计量的一个有较高 
可信度的数值范围。 



你真了禾起！我会告诉掮票店柹球 t 量 
均值蜣置信区同.他们就想知道这个. 
他们会向领害推销更多桷球，那掸利闽 
就增多了 ！ 
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♦ 

研究证据+ 



他人的言论未必句句真实可信。 

问题是如何判断他人的言论何时真，何时假？假设检验为你提供了一种方法——利 
用样本检验各种统计断言是否可能属实。通过假设检验可以权衡证据，检验极限结 
果——是纯属巧合，还是存在其他内在根据？让我们一起阅读本章，看看如何利用 
假设检验证实或打消你内心深处的疑虑。 
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治疗打鼾的灵丹妙药？ 


打_没精打采? 

快让灵册药“親”来帮忙。 
R 克:患者2鼬 

治鷓 90%。 



新药鼾克，治打解有奇效! 


统计# 新上市的神 IH ? 品 

统计邦头号制药公司生产了一种治疗打鼾的新药物。被打呼噜 
折磨不堪的患者纷纷赶往医院，指望能得到睡眠救星。 
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制药公司断言他们的神药能在两周内治愈90%的患者，对于深 
受打鼾闲扰的人来说，这可是个天大的好消息。问题是，并非 
人人都信服这个断言。 






研究证据 



- ^ 


我可不相信他们说鲶是真鲶. 
要是票真也此.我净灰就唷 
更多惠.者铋够治愈. 


统计邦外科诊所的医生给病人开了鼾克，但她对结果感到失望。 
她决定自行对药物进行试验。 

她随机抽取了 15位鼻鼾患者，对这些患者实施为期2周的鼾克疗 
法。两周后，她请这些患者来医院复诊，看他们是否不再打鼾。 

结果 如下： 


是否治愈？ 

是 

否 

频数 

11 

4 


H 治愈. 




如果药物能治愈90%的鼻鼾患者，那么你会期望这个包含15名 
鼻鼾患者的抽样中出现几位治愈者？你认为这符合什么分布？ 
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这是实际用胂毛治愈 
的恚者麩. 


\ 


/ 


这&制坊公司所__ 
洽谟治 愈的兔老軚. 


如果药物能治愈90%的鼻鼾患者，那么你会期望这个包含15名 
鼻鼾患者的抽样中出现几位治愈者？你认为这符合什么分布？ 

75的90吝是 73.5, ® 此你可彳期 f 治愈 M 名急者.而医法蜣抽祥中只省 I 7名患者治愈，这比期 f 蜣结票小 
得多 • 

由子试验攻麩一定，且 (S 4共沒的是治愈人麩. （ S 此.治愈人數符合二项今沛. •& 票用 x 表示治愈人麩，则 
X ~ B .( J 5, 0.9). 


问题出在哪里？ 

下面的概率分布代表制药公司所宣称的能够通过鼻鼾新药治愈的人数。 


动动笔解答 

「疇 || 


10 11 12 13 14 15 X 


医生抽样中通过鼾克治愈的患者数实际上比你所期望的治愈人 
数小得多。按照制药公司的说法，你会期望治愈 14 名患者，但 
其实只治愈了 11名患者。 

为什么会出现这样的差别呢？ 


{XH x)d 


524 深入浅出统计学 



研究证据 


这是杏说明裀窃公司在振谎？ 
菘物蜂应该铖够治愈更多淤病 
人才对？ 


制药公司可能不是存心撒谎，但他们的断言可能具有误导性。 

制药公司的检验可能有缺陷，进而使得鼾克的断言可能存在误导性——由 
于疏忽大意，他们对鼾克进行的检验可能有缺陷，或者说有偏差，以致于 
对总体做出了不准确的预测。 

如果鼾克的治愈率实际上低于90%,那么就能解释为什么样本中只有11人 
治愈 D 


可是我们确窠唷把撝是裀疡公司 
出了差 钳吗？ 说不定是那值医 i 
倒霉 呢？ 


制药公司的断言实际上可能是准确的。 

如果制药公司没有出差错，那么很可能是那位医生的抽样患者无法代表整 
个鼻鼾患者总体。很有可能鼻鼾药物确实治愈了90%的患者，医生却正好 
抽中了不治愈人数比例较高的样本。也就是说，医生的样本可能存在某种 
偏倚，要不然就是因为样本中的患者数目较少。 



.动动膊 


你认为我们该怎么办？我们该相信谁？是相信制药公司的断言, 
还是相信医生的质疑？ 
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假设检验过程 


纵难全爲 


我们该如何裁决医生与制药公司之间的矛盾说法？让我们纵观全局，看 
看需要做点什么。 


我们可以对制药公司的断言进行检验，以期裁决制药公司和医生的矛盾 



之说。 S 卩，我们权且相信制药公司的断言，可是一旦出现强有力的反验 
证据，我们就改为站到医生一边。 


具体做法： 


/崔韋断官 

制祐公司的 

断吕. 


Snore£I ll 


看看我们需要啷些证据才可,， ; 杏定剎窃 
公司始断言，并把所需的证掂和我们手 
羑现唷蜣证据迸行比毅.方蜢是.先假 
设制祐公司绝断言属实. 趑后看看 m 
得到蜣结票是吾唷误. 







枨据证掂，摟受或蚤定 


制窃公司的断言. 



通常以上过程称为假设检验——做出假设或断言，对照证据进行检 
验。让我们看看假设检验的一般过程。 
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研究证据 


假设检验六步骤 

下面是假设检验的几个粗略步骤，我们将在后面几页详加说明。 


即我们要对其进 k 

行试验场斩言.确定要进行检验的假设 
o 选择检验统计量 

我们需要使用甚、 

种确定#水早 © 确定用于做决策的拒绝域 
0求出检验统计量的 P 值 


t _&前要跡絲棘 ㈣ ®言进行 

检验鹼说竹量* 




o 查看样本结果是否位于拒绝域内 
o 作出决策 


■摟 着需要7解试验结票是 
杏佐子确吏蚀眼僅范®中. 




我们需要确保对药品断言进行正确的检验，然后才能加以否定。 

通过这些步骤，我们 明白： 在对双方进行公正的裁决，同时将对 
断言进行公正的试验。我们不想在没有足够证据反驳制药厂断言 
的情况下拒绝该断言，这说明，需要通过某种方式确定所谓“充 
分证据”应该包含哪些内容。 
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原假设与备择假设 


第1 步： 碥定假设 

让我们先执行假设检验第1步，了解要进行检验的主要断言，该断言被称 
为假设。 

制药公司断書 

根据制药公司的断言，鼾克能在2周内治愈90%的患者。除非我们有充分证 
据进行反驳，否则就要接受这个结论。 

我们所检验的这个断言被称为原假设，以 H 。 表示，除非我们有充分证据进 
行反驳，否则就要接受这个断言。 / 


原假识即你要对其迸行检验的斩言，除 
祁 嘀足够 蜣证据迸行反救. 杏则你 将接- 
受这个断言. 


'0 



軒宪的原假设是什么？ 

軒克的原假设即制药公司的 断言： 鼾克能在两周内治愈90%的患者。除非 
我们有足够的证据进行反驳，否则应认同这个断言。 

我们需要检验鼻鼾药物是否至少能治愈90%的患者，因此原假 设为 ： p = 90%。 


这就是舶克试验鲶原假 

设. 


0： p = 0.9 


除扑铋奉出反驳鲶证据 
杏则你必须认间我铋治 
愈患者妫结论. 


0 ^ SNO^rj 
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选择检验铳计鷇 


确定用子做決策的拒绝域 


求出检验统计鳋的 P 值 


窒看样本结果邊否位子拒 
绝域内 


作出决策 


确定要进行检验的假设 


步 

在行一 

你逬达 




研究证搦 


阁什么傲音选假设？ 

前面讲过我们即将检验的断言——原假设，可如果这个假设不为真该怎么 
办？用什么做备选假设？ 

医生的见解 

医生认为制药公司对疗效的断言过于理想，反而显得不真实——她认为治 
愈率不会达到90%,低于90%的可能性更大。 

与原假设对立的断言被称为备择假设.用 H , 表示。如果有足够的证据拒绝 



鼾宪的杳择假设 

鼾克的备择假设就是在证实制药公司的断言有假之后要认同的另一断言。 
如果有足够的证据反驳制药公司的断言，那么有可能医生的断言是对的。 

医生认为鼾克治愈的患者少于90%,即备择假 设为： p < 9096。 

这就是 射克 试验皭 

备梓假钱 . p < 0.9 

既然我们已经为鼾克的假设检验确定了原假设和备择假设，就可以进行第 
2步了。 
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世上没有傻问题 


世上 M 傻问题 


1»): 既然我们假设原假设是真实的，为什 

么后来又要找证据证明它是错误的呢？ 

^: 进行假设检验实际上是对假设检验 
的断言进行试验，你对假设保持怀疑，随后， 
如果有足够的拒绝证据，则进行拒绝。这有 
点儿像把囚犯带到法官面前接受审判。只有 
在有足够的证据证明囚犯有罪时，才能进行 
宣判。 

f 5 ) Z 原假设和备择假设必须穷举吗？二者 

是否应该涵盖所有可能的结果？ 

^ : 不用。例如，我们的原假设是 p =0.9, 
备择假设是 p <0.9, 二者都不必考虑 p >0.9。 


(») :这个假设检验的样本是不是太小了？ 

^ : 即使样本很小，我们仍然能够做假 
设检验，这都取决于你所使用的检验统计量， 
下面将讲到这个问题。 

|»): 这么说假设检验就是用来证明断言是 
否正确的？ 

^ : 假设检验无法给出绝对的证明，你 
只能在假定原假设为真的前提下，通过假设 
检验了解观察结果到底有多可靠。如果观察 
结果极不可能发生，就会成为证明原假设为 
假的证据。 


逬行假设輟验时，你煆定原煆设为^ OT 果有足够的证据疫驳 
原瑕设，则拒绝原瑕设，楂受备择瑕设。 
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研究证据 


第 Z 步： 选择检 验统计 1 

既然已经完全确定了要进行检验的内容，接着就需要通过某些手段 
进行检验——这可以借助检验统计量实现。 

“检验统计量”即用于对假设进行检验的统计量，是与该检验关系 
最为密切的统计量。 

軒宪的检 验统计 盪是哪一个？ 

我们做假设检验的0的是检验鼾克是否能治愈90%以上的患者。为 
lit , 可以根据制药公司的说法査看概率分布，看看抽样中的成功次 
数是否显著。 


我糊涂了.易什么我们 
说成功概率是 0.9? 我们 
逞禾知道是多少呢. 


我们根据原假设 Ho 选择检验统计置。 

我们需要检验是否有充足的证据反驳原假设。办 法是： 首先假设 H 。 为 
真，然后寻找不利于 H 。 的证据。在针对鼾克的检验中，我们假设治愈 
概率为 0.9 ——除非有有力证据证明这不成立。 

为此，我们假定治愈概率为 0.9, 看看得出观察结果的可能性有多大。 
也就是说，取样本结果，然后计算发生这个结果的概率——我们通过求 
桁绝域实现这个目标。 


如果用 X 表示样本人数，就可以将 X 作为检验统计量。样本中共有15 
名患者，根据制药公司的说法，成功概率为0.9。由于 X 符合二项分 
布，于是检验统计 fl 实际上 符合： 

这4我们蝻假■议检验的 

焱 Cur 伯 /7X~B(15,0.9)^~ 检躲诜计 *t. 

我们在 524 货得出了/ / 

这个统计量„ 


确定要进行检验的俑设 


确定用子撖决策的拒绝域 


求出检验统计量的 P 懍 
查翟样本结果璺否位子拒 

作出决策 



在行一 
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求解拒绝域 


第 多步： 碥定矩絶域 

假设检验的拒绝域是一组数值，这组数值给岀反驳原假设的最极端证据。 

让我们再看看医生的样本，以便了解拒绝域的使用方法。如果治愈人数为 
90%或90%以上，这就与制药公司的断言吻合了。随着治愈人数下降，制 
药公司的断言为真的可能性越来越小。 

下面是概率 分布： 




治愈埝人軚皱少.制德公司换 
断言嘀说的可铖性短太. 


=禪 4 切患者已《，治愈 
S 是合么 T 证实跑司 


11 


12 


13 


15 


何时能够拒绝制药公司的断書？ 

样本中得到成功治愈的患者人数越少，可以用于反驳制药公司断言的证据 
就越有力。问 题是： 这些证据的强度达到多大时，我们能够坚决地拒绝 
原假设？——到什么程度候能够拒绝“鼾克治愈90%鼻鼾患者”这个断言？ 

我们需要通过某种方法指出何时能够合理地拒绝原假设——指定一个拒 
绝域即可实现这一目的。如果鼻鼾患者的治愈人数位于拒绝域以内.我 
们就说有足够的证据可以反驳原 假设； 如果鼻鼾患者的治愈人数位于拒 
绝域以外，我们就承认没有足够的证据可以反驳原假设，并接受制药公 
司的断言。我们把拒绝域的分界点称为 “ c ” 一临界值。 


如何选择临界值？ 




4、界点或称唸 
界值 

v 


据证硝？ < 0 




C 
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确定要进行检验的籠设 


选择检验统计置 


确定用于做决策的拒绝域 


求出检验统计欲的 P 值 


簠看样本结果是否位于拒 
绝域内 


作出决策 


步 

在行一 
© 逬迖 




研究证据 


为求炬绝域，先定 显荖性水乎 

为了求出假设检验的拒绝域，首先需要定下“显著性水平”。检验 
的显 著性水 平所最度的是一种愿望，卩卩：希望在样本结果的不可能 
程度达到多大时，就拒绝原假设 H 。。 像置信区间的置信水平一样, 
显著性水平以百分数表示。 

例如，假设我们想以5%为显著性水平检验制药公司的断言，这说明 
我们选取的拒绝域应使得“鼻鼾患者治愈人数小于 c ” 的概率小于 
0.05，即槪率分布最低端的5%部分。 


也系於毛治愈始鼻軒兔老祕 0 、这在 

拒绝城则祆们将枢铯雇 嘏设. 办票 h 态真. 则对子 ••治 愈淤鼻擗患.者妫麩 0 会 

^ 该在这个区同里”产个判断.我们省95 ㈣ 把搞 • 

拒绝4 、 

◄ - ◄ -1 

5% c 95% 


显著性 水平通常用希腊字母 a 表示。 a 越小，为了拒绝 H 。， 样本结 
果需要达到的不可能程度越高。 


我们泫使用多高的显荖性水乎？ 


让我们在假设检验中使用5%的显著性水平。即，如果样本中 
的治愈患者的数 H 落在概率分布的最低5%范围内，我们将否 
定制药公司的断言。如果治愈的鼻鼾患者的数目落在概率分 
布的95%高端范围内，则我们将判定没有足够的证据反驳原 
假设，同时接受制药公司的断言 



重要银计薰 

显著性水乎 


如果我们用 X 表示治愈的鼻鼾患者的数目，则我们将拒绝域 
定义为能令下列不等式成立的一些 数值： 


其中 


P(X < c) < a 


显著性水半用《耒示.它 
泉明你希 f 在观察结票蜣 
不可铋裎廋达到多太时拒 
绝 K 0 . 


a = 5% 
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拒绝域细细看 


.J. . t. I. A 


拒铯域麵缈奢 


在构建检验的拒绝域时，还需要明白一 件事： 所构建的是单尾检验还是双尾 
检验。让我们看看这两者之间的差别，以及它们对拒绝域有什么影响。 


单屎松验 

单尾检验即检验的拒绝域落在可能的数据集的一侧，你选 
择检验水平——以 a 表示，然后确保拒绝域以相应的概率 
反映这个水平。尾部可以是可能数据集的左侧或右侧，具 
体用哪一侧取决于备择假设 H ,。 

如果备择假设包含一个<符号，则使用左尾，此时拒绝域位 
于数据的低端。 

如果备择假设包含一个>符号，则使用右尾，此时拒绝域位 
于数据的高端。 

我们对鼾克使用的是单尾检验，由于备择假设为 p < 0.9, 因 
此拒绝域位于左尾。 




水年淤单尾检验 


100 % 


这 f 用鹼炎在尾. 


这 f 鹼拫絶城依子右尾 
仍糸 a 水年. 

_ . _ ^ _ 


100 % - 


a 




双尾检验即拒绝域一分为二位于数据集的两侧，你选择检验 
水平然后将拒绝域一分为二，并确保整个拒绝域以相应 
概率反映这个检验水平。两侧各占 a /2,因此总和为 ot 。 

判断是否需要使用双尾检验的方 法是： 查看备择假设 H ,, 
如果心包含一个不等号则需要使用双尾检验，这是因 
为你要找出参数的变化，而不是增减。 


这是 M 尾检验.拒绝域一今 
^ 矣二值子两侧始尾郝. 




a/2 100% - a a /2 


对于鼾克，如果备择假设为 p /0.9, 则我们应使用双尾检 
验，我们应该查看治愈的人数是否显著多于或显著少于 


90%。 
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研究证据 


第4 步： 求出 p 值 

讲过拒绝域之后，我们就能进人第4 步： 求出 P 值。 


P 值即某个小于或者等于拒绝域方向上的一个样本数值的概率。具体求 
法是利用样本进行计算，然后判定样本结果是否落在假设检验的拒绝 
域以内。也就是说，我们通过 P 值确定是否该拒绝原假设。 


你在 

迸行- ► 

达_步 


礴定翬进行 tttt 的《设 


进择检驗嫌计麗 


M 定用于决策的拒绝域 


求出检验统计置的 P 值 


査羁样本结巢星否位于拒 
绝域内 


作出决策 


如何求 P 值？ 

具体用哪种方法求 p 值取决于拒绝域和检验统计量。对于鼾克检验来说， 

治愈人数为11人，而拒绝域位于分布的低端，于是 P 值为 P ( Xsll ), 其中 
X 为样本中的治愈人数的分布。 

由于检验的显著性水平为5%,说明如果 P ( Xsll ) 小于 0.05, 则数值11落在 
拒绝域中，这时我们可以拒绝原假设。 

办系小子0.的.说明數值 " 该在拒绝城中—我们 
可4拒绝原嘏诅味. 、 

-^_I- 

◄ - ► 广 ◄ - ► 

0.05 c 0.95 


r 动笔 


我们在第2步中了解到 X ~ B (15,0.9)。 那么 P ( X « 11) 等于多少？ 
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动动笔解答 


动笔 
、‘斛奢 


我们在第2步中了解到 X 〜 B (15, 0.9)。那么 P(X < 11) 等于多少？ 


P ( X ^ 11 ) 


1 - P ( X ^ 12 ) 

( 

1 -( 15 c 12 x 0 . 1 3 x0.9, 2 + ,5 C,a xO.f 2 x0.9 13 + ,5 C, 4 x0.7x0.9 ,4 + 0.9 15 ) 

1 - {0.1Z85 + 0.2669 + 0.3432 + 0.2059) 

1 - 0.9445 
0.0555 


，5 C , s= ^ 也等子 0J0, (S 此 
只需计其0, 5 . 


我们 B 经求得 P 值 

为了求得假设检验的 P 值，我们必须求出 P ( Xsll ), EPP 值等于0.0555。 



P 值即为取得样本中的各种结果或取得拒绝域方向上的某些更为极 
端的结果的概串。 

在鼾克假设检验中，拒绝域位于概率分布的左尾。为了了解“治愈11位 
患者”这个结果是否位于拒绝域内，我们计算了 P ( XS 11), 因为这正是 
取得位于左尾方向上并至少以样本结果为极值的数值的概率。 

我们想？減告-治愈这个结票值子这个拒绝 
威中 ig 此用 n ) 进行诂计 * 

. I 

0.05 0.95 



相反，假如我们的拒绝域位于概率分布的右尾，我们就需要求 P ( X 2 ll )。 
我们应该将更为极端的一些数值视为大于11的极值，因为这些数值本来就 
距离拒绝域更近。 
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研究证据 


5% w 95% 


第6 步： 作出决策 

我们已经进人假设检验的最后 一步： 决定接受原假设，还是拒绝原假设而 
改用备择假设。 

因为假设检验的 p 值落在检验的拒绝域以外，因此，没有充分的证据可以 
拒绝原假设。 所以： 


我们接受制药公司的断言 



确定要进行检验的假设 


选择检验 统计置 


确定用于做决策的拒绝域 


求出检验统计置的 p 值 


查翟样本结果通否位于拒 
绝域内 


第5 步：桿 本结果忮子炬绝域中码？ 

我们已经求出了 p 值，可以用它检查我们的样本结果是否落在拒绝域内。 
如果的确如此，则我们就有足够的证据否定制药公司的断言。 

我们的拒绝域位于概率分布的左尾，所用显著性水平为5%。这意味着， 
如果 P 值小于 0.05, 就能拒绝原假设。由于我们的 P 值为 0.0555, 因此样本 
中用鼾克治愈的患者数不在拒绝域内。 


你在 
进行- 
达一步 


«定要进行检验的假设 


选择检验统计置 


确定用于做决策的拒绝域 


求出检验统计置的 P 值 


查看样本结果星否位于拒 
绝域内 


作出决策 


这是拒绝域 

i 


?值忌0.0 56 , 正胳在 
柜绝城4外. 


作出决策 


步 

在行一 

你逬达 
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假设检验总结 

我们前面傲了哪些工作？ 

让我们总结一下前面的工作。 

首先，我们取用制药公司的断言一医生对此断言有疑虑。我们将这些断 
言作为假设检验的基础，形成一个原 假设： 患者的治愈概率为0.9,随后 
将这个概率应用于医生样本的人数。 


然后，我们决定以5%的检验水平进行检验，检验中使用了医生的样本治 
愈率。我们计算了有11位或11位以下患者得到治愈的概率，然后检查这个 
概率是否低于596,也就是0.05。换句话说，我们计算了等于这个极值或比 
这个极值更极端的数值的概率。 

最后，我们 求出： 当检验水平为5%时，没有足够的证据可以否定制药公 
司的断言。 


俚这并北法想要淤 
结票.我们禾铋闲别紿 
水半进行检验吗？ 



一旦确定了检验的显著性水平，就无法改变。 

检验必须绝对公正。因此在研究实际拥有的证据之前，必须根据所 
需要的证据水平决定所需要的检验水平。 


如果打算先看证据是否充分，再确定检验水平，这就会影响判定—— 
你可能会忍不住按照心中想要的结果选定一个特定的检验级别，这 
就会令检验结果发生偏倚，于是有可能做出错误决策。 
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研究证据 


要点 

■ 进行假设检验即选定一个断言，然后借助统计证 
据对其进行检验。 

■ 所检验的断言被称为原假设，用 H 。 表示。除非有 
有力的证据证明断言不正确，否则就接受断言。 

■ 备择假设即在有充分证据拒绝原假设士的情况下 
将接受的假设，用 H , 表示。 

■ 检验统计量即用于对假设进行检验的统计量，是 
与检验具有最密切关系的统计量。选择检验统计 
量的时候，你假定 H 。 为真。 

■ 显著性水平用 a 表示，它表示你希望在观察结果 
的不可能程度达到多大时拒绝 H 。 。 


■ 拒绝域为一组数值，代表可用于否定原假设的最 
极端证据。选择拒绝域时，需考虑显著性水平， 
还要考虑用单尾还是双尾进行检验。 

■ 单尾检验的拒绝域位于数据的左侧或右侧，双尾 
检验的数据 一分为 二位于数距的两侧。可根据备 
择假设选择尾部。 

■ P 值即取得样本结果或取得拒绝域方向上的更极 
端结果的概率。 

■ 如果 P 值位于拒绝域中，则有充足的理由拒绝原 
假设；如果 P 值位于拒绝域以外，则没有充足的 
证据。 


世傻问题 


|»): 一般可用哪种显著性水平进行检验？ 

^: 这完全取决于你希望以多大力度的证据拒绝原 

假设。你越想增大证据力度，显著性水平必须越小。 

最常用的显著性水平为5%,不过有时也会用到1%的显 
著性水平。用1%的水平进行检验意味着证据力度大于 
5%的水平。 


t ») : 显著性水平与置信区间的置信水平有共同之 

处吗？ 

^ : 有，有不少共同之处。在为总体参数构建置信 
区间时，你希望对“总体参数位于两个限值之间”这一 
结果具有一定的置信度，例如，如果置信水平为95%, 
则说明总体参数位于两个限值之间的概率为 0.95 。 


我仍鼓嘀疑慮. 
我想知道， Jfe 票闲一 
个太一点儿紿辑净会 
怎么裨？ 


显著性水平反映了数值将位于某个限值以外的概率。 
例如显著性水平为5%意味着拒绝域的概率必须为 0.05 。 




假设检验新样本 


如粟桴本缯 大会怎么#? 

前面讲过，医生仅以15人为样本进行了试验，以这个样本为依据得出 
的证据不足以否定制药公司的断言。 

有可能样本不够大，这才无法得出正确的结果。如果医生使用一个大 
一点儿的样本，可能会得出更可靠的结果。 

下面是医生的新试验 结果： 


是否治愈？ 

是 

否 

频数 

80 

20 






我们希望确定：新数据是否会使检验结果发生变化。 

让我们再进行一次假设检验，这一次用一个更大的样本。 





新问题的原假设是什么？备择假设是什么？ 
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研究证据 


现在该进行另一个假设检验了，这需要执行 一系列 步骤。你还记 
得这些步骤的顺序吗？请将磁贴按正确顺序放好。 


作出决策 



确定要进行检验淤假议 
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假设磁贴解答 




假珙祓贴解者 

现在该进行另一个假设检验了，这需要执行一系列步骤。你还记 
得这些步骤的顺序吗？请将磁贴按正确顺序放好。 
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研究证据 


让我们 爯迸行一次假设检验 

医生对于制药公司的断言仍宥疑虑。 

让我们根据新数据进行一次假设检验。 

第1 步： 碥定假设 

我们首先需要确定鼾克的原假设和备择假设 £ 提解 一下： 原假设即我们 
正在进行检验的断言，备择假设则是在没有充分证据拒绝原假设的情况下 
接受的假设。 

那么原假设是什么？备择假设乂是什么？ 

坯是老问题 

在上一次检验中，我们采用制药公司的断言，以此为基础形成原假设。 
我们现在要对同样的断言进行检验，因此原假设还是老样子， 已知： 

H 0 ： P = 0.9 


确定要进行拾验的假设 


选择拾验统计漏 


确定用子做决策的拒绝域 


求出检验统计屋的 P 值 


查嚣样本结栗是否位于拒 
绝域内 _ 


作出决策 


备择假设也是老样子。如果有有力的证据否定制药公司的断言，则我 
们将接受“药物的患者治愈率低于90%”这一说法，于是备择假 设为: 

H 1 : P < 0.9 
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选取检验统计量 

第 Z 步： 选择检验统 i 十量 

如上所述，第2步是选择检验统计量，即需要找出某个统计量，以便对 
假设进行检验。 

在前一个假设检验中，我们通过观察样本的成功数目以及结果的显著 
性进行检验。我们用二项分布求出了一个至少以样本数值为极值的概 
率。换句话说，我们用检验统计量 X ~ B (15, 0.9) 检验 P ( Xsll ) 是否小于 
显著性水平0.05。 

这一次，样本中的患者数是100,要检验的断言还是老样子——治愈某 
位患者的概率为 0.9, 即我们的新检验统计量为 X ~ B (100, 0.9)。 


M 定要进行梅 tt 的 •设 


选择拾验统计屋 


确定闲子做决策的拒绝域 


求出检验统计®的 P 值 


査春样本结槳屋否位于拒 
绝域内 _ 


作出决策 


你在耍我吗？要是用二项 
今沛计莫概率的话，我们 
就得永远杲在这儿其下去. 


我们可以用 另一种 分布代替二项分布。 

用二项分布解决这一类问题需要计算大量概率，因此很费时间。 

幸运的是，还有另一种方法。我们可以不用二项分布，而改用其他 
分布。 






你能用哪种概率分布近似 X 〜 B (100, 0.9)? 
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研究证据 



为了能够最大限度地发挥假设检验的作用，你需要了解各种变量和参数的分布情况。在下 

列情况下，你会用哪种分布求概率？ 

一 提示： 净书前式已经对这# 情况 迸行过 
餅斛。若嘀疑 4. 读春看前弍. 


1. X ~ B ( n , p )。 如果 n 很大 ， np > 5且 nq > 5,你会用哪种概率分布进行近似？ 


2. X ~ N ( m , <0。已知 m 和 a 2 的数值，又符合哪种分布？ 


3. X ~ N ( m , cr 2 )。 已知 m , 但不知道 a 2 的大小，样本很大。假如数据已知，那么又符合什么分布？ 


4. X - N ( p , cj 2 )。 已知 M , 但不知道 a 2 的大小，样本很小。假如数据已知，那么又符合什么分布？ 
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问题解答 




V 著 


为了能够最大限度地发挥假设检验的作用，你需要了解各种变量和参数的分布情况。在下 
列情况下，你会用哪种分布求概率？ 


1. X - B ( n , p)o 如果 n 很大， np > 5 且 nq > 5, 你会用哪种概率分布进行近似？ 

也票 A 很太，则我们可 " i 用正态今亦近 fiXX ~ p ). 由子 e ( x ) =吁. vnr ( x ) = V ^> c \, 子是可 >， i 用 X ~ 

SI (呼,呼气)， 其中假定八 p > 5, 叫>5. 


2. X ~ N ( m , a 2 ) o 已知 m 和 a 2 的数值，又符合哪种分布？ 
办票我们知道 a 2 的麩值. 则又~1^(0,07凡). 


3. X ~ N ( m , a 2 )。 已知 M ,但不知道 a 2 的大小，样本很大。假如数据已知，那么又符合什么分布？ 
• fo 票我们不知道 a 2 妫麩值.则用 S 2 进行估计， X ~ N (4, sV ^.). 


4. X ~ N ( m , a 2 )。 已知 M , 但不知道 CT 2 的大小，样本很小。假如数据已知，那么又符合什么分布？ 


也系我们冬知道 CT 2 淤麩偟，则用 S 2 迸行诂计，也票掸净很小.则使用 t : 今谇 T ~ t ( K - 0,其中 

T- 分 
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研究证据 


在我们的检验统 计中阁 正态分布近似二顼分布 

我们照样需要找到一个能用于进行假设检验的检验统计量。由于样本数 
量很大，使用二项分布将会费时费力。 

样本中有100名患者，而按照制药公司的说法，成功比例为0.9。这就是 
说，成功数目服从二项分布，其中 n =100, P = 0.9 o 


由于 n 很大，且 np 和 nq 都大于5,我们就用 X ~ N ( np , npq ) 作为检验统计量, 
其中 X 为成功治愈的患者的数目。即我们能够用 


近似我们所需要的任何概率。 


由子 八很 大.且呷 > 

X ~ N(90, 9) t ^ 很大， （§ 此我们可4用这个 
4、洚. 


经过标准化，得到: 


z = 


X - 90 t - 
V9~ 


对乂 ~ N(90, 9) 迸行 
标准化. 



你用检验统计置计霣概率一该概率可以当作证据。 

这就是说，我们将 z 作为检验统计量——因为通过它可以轻松查出 
概率，进而了解在以制药公司断言为前提的情况下，我们的样本结 
果的不可能程度如何。我们将80代人 X ，这样就能求出治愈人数为 
80或80以下的概率。 
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求解另一个拒绝域 


第 多步： 求出拒绝域 

有了检验统计量之后，还需要求拒绝域。由于我们的备择假设 
为 p < 0.9, 这表明拒绝域位于左尾，这和前面是一样的。拒绝 
域还取决于检验的显著性水平，让我们选择和前面一样的显著 
性水平，即以5%水平进行检验。 



M 定要进行检驗的懨设 


选择眺班计置 


确定用于做决策的拒绝域 


求出检验按计 S 的 P 值 


样本结粟® S 位于拒 
绝域内 


作出决策 


由于我们的检验统计量符合标准正态分布，于是可以用概率表 
查出临界值 c 。 临界值即具有足够证据拒绝原假设和不具有足够 
证据拒绝原假设这两种情况的分界值。 

由于我们的显著性水平为5%,于是临界值 c 等于令 P(Z < c )=0.05 
的数值。在概率表中查找 0.05, 得到 c 的数值为 -1.64 ，即： 

P(Z < -1.64) = 0.05 

这说明只要检验统计量小于-1.64,我们就有足够的证据拒绝原 
假设。 
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研究证据 


你觉得自己能完成其余假设检验步骤吗？看看能否求出下列 结果： 

第 4 步：求 p 值 

拒绝域位于分布的左尾，治愈人数为80人 ， Z = ( X -90)/3, 利用这些条件求出 P 值。 


第 5 步：查看检验统计量是否位于拒绝域内 

别 忘了： 假设检验的显著性水平为5%。 


第6步：作出决策 

根据证据，你接受还是拒绝原假设？ 
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练习解答 






你觉得自己能完成其余假设检验步骤吗？看看能否求出下列 结果: 


第 4 步：求 p 值 

拒绝域位于分布的左尾，治愈人数为 80 人， Z = (X-90)/3, 利用这些条件求出 P 值。 

it 我们先求 so 蜍#准今. 

Z = (80 - 90)/3 
= -70/3 
= S.33 

p 值其注(乙 < z ) = 1 >(乙< _ 3 . 33 ),查找概率表 ，得： 
pfl = 0.0004 


第5步：查看检验统计量是否位于拒绝域内 

别忘了\假设检验的显著性水平为5%。 

也票？偟小子0.0 5 , 则 检验俛针量值子拒绝域中.由子？值4子 0.00 CH , 说明检验诜计責伖子拒 
绝域中. 


第6步：作出决策 

根据证据，你接受还是拒绝原假设？ 


由子检验说计量值子假 试检验 的拒绝域中，说明在 5 f 。 显著性水早蜣倩况下，我们唷足够姥证掂 
拒绝原假试. 
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研究证据 


奸完未通过检验 


在对鼾克进行的这一次检验中，有足够的证据证明可以拒绝 
原假设，这说明我们可以否定制药公司的断言。 





我们一丹抬就斫函 i 
妫禾就崧了？ 


假设检验需要证据。 

进行假设检验时，你选取一个断言，然后对其进行试验。只有在有 
足够证据反驳这个断言时，你才能否定这个断言。这意味着检验是 
公正的，因为你做决策的唯一依据就是是否有充分证据。 

如果我们一开始就接受医生的观点，就不会妥当地考虑证据。我们 
会在不考虑结果是否只能解释为偶然的情况下作出决策，而现在呢， 
我们有足够的证据表明，样本结果足以合理地拒绝原假设。这些结 
果具有统计显著性，因为它们不可能是偶然发生的。 

这能保证制药公司的断言是错误的吗？ 
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我们的假设仍有可能是错误的 

玎能出现铹误 

前面讲到在假设检验中如何将样本结果作为证据，如果证据足够有力， 

则我们用这些证据合理地否定原假设。 

我们已经发现有足够证据证明制药公司的断言是错误的，但是，能对此 
做出保证吗？ 

& 7 . 我们已经进行 
V . 验证明制槁公司在裱谎 . J 

即使证据很有力，我们也无法绝对保证制药公司的断言是错误的。 

说是说不可能，但我们仍然可能做出错误决策。我们可以通过假设来检验 
证据，可以规定在确定性达到何种程度时就拒绝原假设，但这些并不能完 
全保证我们的决策是正确的。 

问题是，我们如何确定决策是否正确？ 

进行假设检验有点儿像让囚犯接受法官审查，除非有充足的不利证据，否 
则法官假定囚犯无罪，但是，即使考虑了证据，法官仍然有可能误判。通 
过下一页的练习，你将明白误判如何发生。 

世上没布傻问题 

|»| : 在进行假设检验的时候，我们怎么会做出错误决 |»): 我曾经听人说起过“显著性检验”，这是什么？ 
策呢？我们做假设检验不就是为了确保不判错吗？ 

^: 有些人把假设检验称为显著性检验，这是因为 

^: 在进行假设检验的时候，你只能根据手头拥有你是按照某种显著性水平进行检验的。 

的证据作决策，证据来源于样本，因此，如果样本有 
偏，那么你就会根据有偏数据做出错误决策。 
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研究证据 


-动笔 

1. 这个试验的原假设是什么？ 


一个囚犯正在因犯罪行为接受审判，你是法官。法官的任务是 
假定囚犯无罪，但是，假如有足够证据证明囚犯有罪，则需宣 
判囚犯有罪。 


2. 备择假设是什么？ 


3.在什么情况下，法官做出正确判决？ 


4.在什么情况下，法官会做出错误判决？ 
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动动笔解答 


- 缱 II 

1 . 这个试验的原假设是什么？ 


一个囚犯正在因犯罪行为接受审判，你是法官。法官的任务是 
假定囚犯无罪，但是，假如有足够证据证明囚犯有罪，则需宣 
判囚犯有罪。 


原假 议是： 囚犯元罪.除扑唷反*证掂. •! •则我们必须也此嘏定. 


2. 备择假设是什么？ 

备挿假 试是： 囚犯唷雅.也就 I 说，办票唷先今证据证明囚犯并3纟无罪，则我们接受囚犯嘀罪 
这一说注.并迸行宣判. 


3. 在什么情况下，法官做出正确判决？ 
也下行穿可迸行正确 判决： 

囚犯无罪，且我们 皮现他 无罪. 
囚犯嘀罪，且我们皮现他省罪. 


4.在什么情况下，法官会做出错误判决？ 
也下 行事可做出#诀刿 决： 

囚犯无而我们皮现他嘀 W . 
囚犯唷罪，而我们皮规他无罪. 
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研究证据 



进行假设检验时可能会出现的错误与审判罪犯时可能会犯的错误是 
同样类型的错误。 

假设检验的基本方法是这 样的： 选取一个断言，对其进行检验一评估 
对其不利的证据。如果有足够的不利证据，则否定该 断言； 如果没有足 
够的不利证据，则接受该断言。你可能会正确地接受或拒绝原假设，但 
即使在考虑了证据的情况下，仍然有可能犯错误。你可能会拒绝一个正 
确的原假设，也可能接受一个实质上错误的原假设。 

统计学家为以上类型的错误给出了专用名称。第一类 错误： 错误地拒绝 
真原 假设； 第二类 错误： 错误地接受假原假设。 



假设检验的功效即你正确地拒绝一个假原假设的概率。 


假设检验决策 
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第一类错误和第二类错误 


让我们从第一类错误讲起 

第一类错误即在原假设实际为正确的情况下拒绝原假设的后果。就 
像审判囚犯，发现其有罪，但实际上他却无罪。 

若实陆上炎正硇淤： 

这就发古 

芨生第一类错误的概率是多犬？ 

如果发生第一类错误，那么一定是拒绝了原假 
设。拒绝原假设的前 提是： 样本结果必须位于 
拒绝域以内。 


也票波法第一真错误，检验 
统计量肯定佐子拒绝域^ 


发生第一类错误的概率等于你的结果位于拒绝域以内的概率。由于拒 
绝域由检验水平决定，说明如果检验的显著性水平为《,则发生第一 
类错误的概率必须也等于 a 。 

即： 

P (第一类错误> = a 

其中 a 为检验的显著性水平。 
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研究证据 


爯谈第二类错误 

当原假设实际为错误假设时，如果你接受原假设，则发生第二类错误。 
这就像对一个囚犯进行审判，发现其无罪，但实际上他是有罪的。 


奸。祕祕试祕 减谈假後 
时，喊4第二矣狀 


发生第二类错误的概率通常用希腊字母 P 表示。 

P (第二类错误> = P 



如何求 P ? 

求第二类错误的概率要比求第一类错误的概率难得多。下面是相关 
步骤，我们将在下一页讲解执行过程。 

O 检查是否拥有的特定数值。 

没有这个数值则无法计算第二类错误概率。 

o 求检验拒绝域以外的数值范围。 

如果检验统计量已经标准化，则该数值范围要进行逆标准化。 

o 假定为真，求得到这些数值的概率。 

也就是说，我们要求出得到拒绝域以外的数值的概率，但这一次用氏而不是 H。 对检 
验统计量进行描述。. 
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计算第一类错误和第二类错误 


岌观鼾 宪检验 的铐误 

让我们看看是否能求出鼾克假设检验发生第一类错误和第二类错误的概率。 

X - 

Z —- 

3 

其中 X 为样本中的治愈患者数。检验的显著性水平为5%。 

让我们从笫一类铐误箕起 

第一类错误即在原假设实际上为真时却拒绝原假设所引起的错误，发生这 
种错误的概率与假设检验的显著性水平相等， B 卩： 

一 这就美■在 ••治 愈率忌这个康嘏娘名 

P (第一类错误 } = 0.05 kC 一"真时 却拫绝康假议換橄率. 

笫二类铐误如何 计萁？ 

第一类错误即在备择假设为真时却接受原假设所引起的错误，只有在心规 
定了唯一特定值时我们才能计算这个错误，因此让我们使用备择假设 P = 0.8, 

因为这个值是医生样本的成功比例。于是我们的假 设为： 

Ho ： P = 0.9 这一攻我们用献咖？ =。.8而禾炎⑽ < 0 . 8 .读在备梓假 

H,-P = 08 ^ ' 

K 必须规定一个确切的 P 值，因为只有这样我们才能利用它计算概率。如果 糸了铋用备揷豭议概车今 

我们使用备择假设 P < 0.9, 那么无法利用它计算发生第二类错误的概率。 讳查找概車.我们需要一 

个确切鲶 pfi . 

敢轻松 . 

如果在考试中需要计算发生第二类错误的槪丨 
率，題目会告诉你札是多少。 

这就是说不需要你自己确定备择假设。如果需要计 I 
算这一类错误，这将是已知条件。. : 
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研究证据 


我们熏要求数值范谲 

既然备择假设叶有了一个特定的 P 值，我们就能进人下一步了。我们需要求 
出位于假设检验拒绝域以外的 X 值。 

回头查阅548页，我们会看到检验的拒绝域由 Z <-1.64 给出，即， P ( Z <-1.64) 
= 0.05。这说明拒绝域以外的数值由 Z 2 -1.64 给出。 



经过逆标准化， 得到： 

X - 90 

一^ -> -1.64 

' - - ^"^3 

X - 90 >-1.64 x 3 

X > -4.92 + 90 

X > 85.08 

即，如果鼾克的治愈人数为 85.08 或更多，则我们就会接受原假设。 

最后，我们需要假定 H , 为真，算出 P(X 2 85.08), 这样我们就能算出在 H , 
实际上为真的情况下接受原假设的概率。由于我们使用正态分布近似 X , 
于是需要使用的概率分布为 X ~ N ( np , npq ), 其中 n = 100, p = 0.8, 得 
到 X ~ N (80, 16)。 

X ~ N (80, 16) 

这说明,如果我们算出 P(X 2 85.08), 其中 X ~ N (80, 16), 我们就能求出 
发生第二类错误的概率。 

该概率的计算方法与其他正态分布概率的算法 相同： 求出标准分，然后 
在标准正态分布表中查找数值。 
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进一步了解第二类错误 


求 P (第二类铐误 J 

通过计算 P(x 2 85.08), 其中 X~N(80,16), 我们可以求出发生第二类错 
误的概率。让我们先求 85. 08的标准分。这炎脅用的竹其祐准兮嫉方这： 

85.08 - 80 一減去滟挺 ; 后除 "i 标准差 • 
z =- 

VT6~ 

5.08 



= 1.27 


即，为了求 P(X 2 85.08), 我们需要使用标准概率表求出 P(Z 2 1.27 )。 

P(Z^ 1.27) = 1 - P(Z < 1.27) 

=1 - 0.8980 
= 0.102 


这就炎在实际上铋治愈 80 务氪老鹼该 
況下，接受“嫌治愈 90 吝兔老这个 

P (第二类错误 > = 0.1 02 ^ 雇假议淤概率 • 

世上 M 傻问题 


1»1 : 求 p (第二类错误)为什么比求 p (第 一类 错误）难这 
么多？ 

^: 这是由其定义决定的。第一类错误是错误拒绝 
原假设所引起的 结果； 发生这类错误的概率等于检 
验的显著性水平。 

第二类错误是在备择假设实际上为真的情况下接受原 
假设所引起的结果，为了求出发生这一类错误的概率， 
你首先需要求出样本中的表明你接受原假设的数值范 
围。在求出这些数值之后，还需要计算在假设 H , 为真 
的情况下取得这些数值的概率。 


|»): 每当我想求发生第二类错误的概率时，都要用正 

态分布吗？ 

^: 所用概率分布取决于检验统计量。在我们的 

例子中，检验统计量符合正态分布，因此用正态分布 
求 P (第二类错误）。如果检验统计量符合其他分布，例 
如泊松分布，则应该用泊松分布。 
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研究证据 


汄识功效 


前面讲到进行假设检验时所发生的各种错误的概率，还有一事尚未谈 
及： 功效。 


假设检验的功效也是一种 概申. ——在14„为假的情况下拒绝 H 。 的概率。 



只要求出 P (第二类错误），再计算假设检验的功效就容易了。 

在 H 。 为假时拒绝>^其实就是发生第二类错误的相反情况 。即： 

功效= 1 - P 

其中 P 等于发生第二类错误的概率。 

鼾宪假设检验的功效是多少？ 



我们已经求得第二类错误的概率为0.102,通过下式可算得鼾克假设检 
验的 功效： 


功效=1 - P (第二类错误） 

=1 - 0.102 

= 0.898 

即，鼾克假设检验的功效为 0.898, 因此我们做出正确决策而拒绝原假 
设的概率为0.898。 
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鼾克是伪劣品! 


医生孖心了 

你在本章进行了两次假设检验，证实有充分证据否定制药厂的 
断言。你能够阐明，根据医生的样本，有足够的证据证明鼾克 
无法治愈90%的鼻鼾患者，而制药厂却断言可以做到 
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我觉得这个结论太美崧，反而禾像 
m. 你幸出了唷力鲶说计证据. 
证实我是对淤.听 了你的 结论.今晚 
我铖逄个崧觉了. 


不过搴情还没有到此结東 




研究证据 




制药公司和他们的止咳糖浆制造厂发生了争议，厂方说注入药瓶的糖浆量符合正态分布 
X ~ N (355, 25), 其中 X 是量得的每瓶糖浆容量，单位 mL 。 制药公司用大样本进行了检验， 
发现100瓶糖浆的平均容量为 356.5 mL 。 请以1 %的显著性水平检验厂方给出的均值假设， 
与此相对的另一说法是每瓶糖浆的容量均值大于 355 mL 。 


第1步：确定要进行检验的假设。 原假设是什么？备择假设是什么？ 


第2步：选择检验统计量。 


提示： 你鲶假该 涉玟 刭幼值，那么 x 
■符合计么 今沛？办何迸 行标准化？ 


第3步：决定用于做决策的拒绝域。 拒绝域位于分布的左尾还是右尾？显著性水平是多少？ 
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假设检验的运用 


'修 




制药公司和他们的止咳糖浆制造厂发生了争议，厂方说注入药瓶的糖浆量符合正态分布 
X ~ N (355, 25), 其中 X 是量得的每瓶糖浆容量，单位 mL 。 制药公司用大样本进行了检验, 
发现100瓶糖浆的平均容量为 356.5 mL 。 请以1 %的显著性水平检验厂方给出的均值假设, 
与此相对的另 一说法 是每瓶糖浆的容量均值大于 355 m L 。 


第1步：确定要进行检验的假设。原假设是什么？备择假设是什么？ 

我们想检验每嵌搞浆蛛容量均值是爸也厂方所述忌 355 ml , (§ 此： 

Hfo ： 4 = 355 
hit: n > 355 

第2 步： 选择检验统计量。 

X~N(H,oVw<). (S 此根掂原假议 得知： X - N(355, 25/100) X ~ N(355, 0.25). 
对比迸行标准化. 讲到： 

X- 355 

Z, = 

VO. 25 

X- £55 
0.5 


第3步：决定用于做决策的拒绝域。拒绝域位于分布的左尾还是右尾？显著性水平是多少？ 

备掸假诅基 M > 355, 即拒绝域值子右尾.我们想蜣显著蚀水早迸行检验，®此拒绝域由 
P(2 ： > C) = 0.07 决定.利用概率泉.得刭： C = 2.32. 即拒绝域由乙 > 2.32 确定. 
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研究证据 



继续前面的 练习： 这是假设检验的后三步。你能得出什么结论？ 


— 


第4步：求假设检验的 p 值。使用分布 Z = (X - 355)/0.5, 即样本糖浆的容量均值，记住，这_次你需要查看 
检验统计量是否位于分布的右尾，因为这正是拒绝域所在位置。 


第5步：查看样本结果是否位于拒绝域以内。 记住： 检验的显著性水平是1 %。 


第6步：作出决策。是否有足够的证据拒绝显著性水平为1 %的原假设？ 
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练习解答 




斛著 

(T; 


继续前面的 练习： 这是假设检验的后三步。你能得出什么结论？ 


第4步：求假设检验的 p 值。使用分布 Z = (X - 355)/0.5, 即样本糖浆的容量均值，记住，这一次你需要查看 
检验统计量是否位于分布的右尾，因为这正是拒绝域所在位置。 


Z . = ( X - 355)/0.5 
= (356.5 - 355)/0.5 
= 1 . 5 / 0.5 


由子拒绝域值子右尾. 函此 检验的 p 值由> 3) 决定，查概车表，得刭： 

?>值= 0.0013 

第5步：查看样本结果是否位于拒绝域以内。 记住： 检验的显著性水平是1 %。 

P 值0.007 3 小子显著蚀水半 0. CM , 这表明 掸净结 票值子拒绝域由. 

第6步：作出决策。是否有足够的证据拒绝显著性水平为1 %的原假设？ 

由子掸4结票值子拒绝域„1内，唷先今的证据拒绝康假议.我们可.接受备挿假试： 4 > 355 ^ 1 . 


要 


点 


■ 第一 类错误即在原假设正确时却拒绝原假设。发 生第一 类错误的概率 
为 a ——即检验的显著性水平。 


■ 第二类错误即在原假设错误时却接受原假设。发生第二类错误的概率 
用 P 表示。 

■ 为了求出 P , 备择假设必须为 一个特 定数值。于是你求出检验拒绝域 
以外的数值范围，然后求出以为条件得到这个数值范围的概率。 
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14 X z 分布 




♦ 


I 继续探讨 



有时候事实与期望井不相符。 

当以一种特定的概率分布为某种情况建模时，对于事物的长期可能结果，你有十 
分清晰的想法。可如果期望与事实存在差别呢？你该如何判断？——这些偏差是 
正常波动，还是说明概率模型存在问题？本章将讲解如何利用 X 2 分布分析结果, 

排除可疑结果。 
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有人在操纵肥蛋赌场吗？ 



肥蛋赌场玎能有麻烦 

肥蛋赌场惯于从赌客身上捞钱，不过，这个星期它 
碰到了问题——老虎机总是出头奖，轮盘总是停在 
12位，骰子老是不称手，有一张赌二十一点的牌桌上 
出现了太多赢家。 

赌场再这么赔下去就撑不住了，肥蛋老板怀疑有人 
动了手脚，他需要你帮他探明究竟。 






发了! 


发了! 


幽 


































继续探讨 1 


让我们从老虎机孖始 


前面已经讲过，肥蛋赌场有一大排亮闪闪的老虎机，只等着大家去赌。问题 
是，人们不仅赌个不停——而且贏个不停。 


下面是某台老虎机的期望概率分布，其中 X 代表每一局游戏的净 收益: 


每局 2 盖元，■&杲计么也 
痰禾到蛛话，你就损夫 
2 義元. 



办系寺？头典，淨收 
益就4 98 羡元. 


赌场搜集了一些统计数据，给出了人们获得某种收益的次数。下面是观察到 
的每局净收益的 频数： 


麵麩指出每种收盖的皮 
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动动笔解答 




观察这些数据，似夺老虎机 
蜣赔付颠存在其种规捭.可 
我们何青定这一点呢？这种 
事禾太可铖一可也嘀 可铋会 

at. 


我们需要以某种方式判定：这些结果能否说明老虎机受到操纵。 

我们需要进行某种假设检验，以此检验观察频数和期望频数之间的差别。 
这样一来，我们就有办法 判定： 老虎机是否被人动过手脚一以致这些 
机器不断进行大额赔付。 

问题是，我们能用哪种分布进行这项假设检验？ 
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继续探讨 1 


用)^检验评估差异 

有一种概率分布正合我们的心意—— X 2 分布， X 读作“卡”，是希腊字母 
chi 的大写。这种分布通过一个检验统计量来比较期望结果和实际结果之间 
的差别，然后得出观察频数极值的发生概率。 


让我们先求检验统计量。为此，首先画一张表，填入相应问题的观察频数 
和期望频数，然后，用观察频数和期望频数计算下列统计量，其中 O 代表 
观察频数， E 代表期望频数。 


o 絲规察嘛. 说 ㈣㈣ 數. 

x 2 = ^(O^E)^ 

即，对于概率分布中的每一个概率，取期望频数和实际频数的差，求差 
的平方数，再除以期望频数，然后将所有结果相加。 

那么老虎机问题的检验统计量是多少？ 


' - 


用 在上一 页算出的肥蛋赌场老虎机观察频数和期望频数表计算检 
验统计量。看结果如何？ 

数值小说明什么？数值大说明什么？ 

4 
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用 在上一 页算出的肥蛋赌场老虎机观察频数和期望频数表计算检 
验统计量。看结果如何？ 

数值小说明什么？数值大说明什么？ 

x 2 = (965 - 977 Y /977 + (7 0 — 8) 2 /8 + (9 - 8) 2 /8 + (9 - 6) 2 /6 + (7 - 1) 2 /1 
= {- 1 Z ) 2 /977 + Z 2 /8 + 1 2 /8 + 3 2 /6 + 6 2 
= 144/977 + 4/8 + 1/8 + 9/6 + 36 
= 0.147 + 0.5 + 0.725 + 1.5 + 36 
= 38 . 27 Z 

也票 X 2 值很小，说明观察麵數和期 f 麵數之同淤差别禾 里著； X 2 姪大，差别较显著. 


动动笔解答 

「譴 || 


检验统计 S 代表什么？ 


检验统计量 X 2 提供了一种对观察频数和期望频数之间的差异 进行董 度的办 
法。 X 2 的数值越小，观察频数和期望频数之间的总差值越小。 

除数 E 为期望频数，于是所得结果与期望频数成反比例。 

o 和 e 之间淤差值糙小. xz 姮小. 

x2= T (Q - “ 

— £ — ~ y ， 矣除數，令差值与期 f 频數成 

~~~ ' 比例. 

X 2 大到什么程度才算得上显著呢？——我们需要 指出： 在什么情况下才能 
十分肯定地判定老虎机岀了问题一而且这个问题已经超出了 “合理偶然 
性”的范围。 

为此我们需要讲讲 x 2 分布。 
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继续探讨 I 


分布的两个主要用途 

X 2 概率分布主要用于检查实际结果与期望结果之间何时存在显著差别, 
该概率分布使用前面讲到的检验统计量 X 2 进行检验。 

X 2 分布有两个主要用途。 

第一是用于检验拟合优度，也就是可以检验一组给定的数据与指定分布 
的吻合程度。例如，可以用它检验老虎机收益的观察频率与我们所期 
望的分布的吻合程度。 

X 2 分布的另一个用途是检验两个变量的独立性，通过这个方法可以检查 
变量之间是否存在某种关联。 

X 2 分布用到一个参数——希腊字母 V ， 读作“纽”，让我们看看 v 如何影 
响概率分布的形状。 

当 V 等子1或 Z 

当 v 等于1或2时， X 2 分布为一条先高后低的平滑曲线，其形 
状像一个倒立的 I 。检验统计量等于较小数值的概率远远高于 
等于较大数值的概率，这就是说，观察频数有可能接近期望 
频数。 



办票 V 如氣 2, 则 X 2 含邡的外 
1^/形炎这掸晌. 


X 2 ' 




当 V 大子之 

当 v 大于2时， X 2 分布的形状发生改变——随着 X 2 递增，图形 
先低，后高，再低，其外形沿着正向扭曲，但当 v 很大时，图 
形接近正态分布。 




也系 V 大子则 (S 形办下 • v 
链大， X 2 兮邡鹼外形较接近正 
态今邡 • 


-> 

t 


若你正在使用具有特定参数 v 的 X 2 分布以及检验统计量 X 2 ,可简单 
记作： 


X 2 - x 2 (v)t^ 


X 2 符合 X 2 兮邡，恰定值 


看上去像 X . 俚更显拒曲. 
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自由度 


V 表示 f ) 由度 


前面讲到 v 如何影响 X 2 分布的形状，如何求出 V 呢？ 

v 为自由度数目，即用于计算检验统计量 X 2 的独立变量的数目，或可以说是 
独立信息段的数目。让我们结合实际进行说明。 

下面回顾一下老虎机的观察频数和期望 频数： 


X 


期望频数 

-2 

965 

977 

23 

10 

8 

48 

9 

8 

73 

9 

6 

98 

7 

1 


自由度数目等于我们要计算的期望频数的数目——计算时要考虑我们所受 
到的各种限制。 


为了计算检验统计量 X 2 ,我们必须计算所有的期望频率，也就是必须计算5 
个期望频数。进行计算时要记住 一点： 期望频数总和与观察频数总和必须 
相同一这就是说，我们进行计算时受到1个限制。 

那么 V 是多少？ 

为了算出 V, 我们取所计算过的信息的数目，减去所受到的限制的数目。为 
了算出检验统计量 X 2 ,我们必须计算5个独立信息，同时受到1个限制。于 
是，自由度的计算结 果为： 
v = 5 _ 1 
= 4 

以上结果还可以这样 理解： 我们必须利用概率分布计算4个期望 频数； 至于 
最后一个频数，则可以先求出总期望频数，再求出最后一个频数。 

一般说来， 


V =(组数卜（限制数) 
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继续探 讨_ 


显荖性是多少? 


我们如何利用 X 2 分布指出观察频数和期望频数之间的差异显著性？ 
和其他假设检验一样，这都取决于显著性水平。 

用 X 2 分布进行的检验为单尾检验，右尾被作为拒绝域。于是，通过 
査看检验统计量是否位于右尾的拒绝域以内，你就可以判定根据期 
望分布得出的结果的可能性。 

如果用显著性水平 a 进行检验，则可以 写作： 

X 2 a (v) 


二 


太，规察频鈥 
袭鼻较•大 • 


X 2 a ( v ) 


那么如何求 X 2 分布的拒绝域呢？我们可以使用 X 2 概率表。 


如何使用 x z 概率表 

为了求出临界值，首先应找出自由度 V 以及显著性水平 ot 。 在第一列 
査找 V, 第一行査找 a, 交点即 x 值，从？(/ £1 (4 2幻=0 1 得出临界值。 

例如，以5%为显著性水平，8为自由度进行检验，若要求临界值, 
则在第一列査找8，第一行査找 0.05, 查出数值15.51。因此，只要 
检验统计量 X 2 大于 15.51, 则在显著性水平为5%、自由度为8的情况 
下，检验统计量就位于拒绝域以内。 


这一列糸 0 . 0 5 . 



这是 8 和 0 . 0 5 鲶麦点. 
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X 2 假设检验步骤 


Y 假设检验 


下面是用 X 2 分布进行假设检验的几大 步骤: 



和前南的 



o 

❺ 

❺ 

o 

o 

❻ 


确定要进行检验的假设及其备择假设 


求出期望频数和自由度 


确定用于做决策的拒绝域 


计霣检验统计置X 2 



这瘙多瘃和 
前面提到轮 



查看检验统计屋星否位于拒绝域以内 


作出决策 


看着眼熟吗？大部分步骤都和其他假设检验完全一样，也就是说，这个 


过程与前面讲过的过程完全相同。 


P 5 ) :这么说 X 2 检验其实就是假设 
检验的特殊形式？ 

^ : 是的，正是如此。检验步 
骤完全和前文讲过的步骤一样。 

f 5 ) :检验时总是使用右尾吗？ 

^: 是的，假设检验总是使用 

右尾。这是因为检验统计量越大， 
观察频数与期望频数的差别越大。 


世上 M 傻问题 

f 5 ) :我想我在前面看到过自由度 
这个术语，对不对？ 

答： 没错，前面看到过。还记 
得我们讲过如何用 t 分布建立置信区 
间吗？对， t 分布也用到了自由度。 

|«): 我想以前是把自由度叫做 df 
的，而不是 V, 我记错了吗？ 

^: 一点儿没有错。不同课本 

有不同的约定，我们用的是 V 。 反 
正，它们意思相同。 


|»):我想在网上查找 X 2 分布的信 
息。该怎么查找呢？要输入希腊字 
母吗？ 

^ : 查找“卡方”即可。 X 2 也 
写作“卡方”。 
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继续探讨 



你的任务是，在5%的显著性水平下，看看是否有足够的证据判定老虎机被人动了手脚。请 
按所给步骤进行计算。 


1. 要检验的原假设是什么？备择假设是什么？ 


2. 自由度为4, 5%水平的拒绝域是多少？ 


3. 检验统计量是多 5?- 提示：前面已经计其过 • 


4. 检验统计量是在拒绝域以内还是在拒绝域以外？ 


5. 你将接受还是拒绝原假设？ 
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练习解答 



你的任务是，在5%的显著性水平下，看看是否有足够的证据判定老虎机被人动了手脚。请 
按所给步骤进行计算。 


1. 要检验的原假设是什么？备择假设是什么？ 
老虎机每局收盖符合也下概率今沛. 



-2 

23 

48 

73 

98 

P(X = x ) 

0.977 

0.008 

0.008 

0.006 

0.001 


H ,： 老虎机每局收益禾符合上概率今沛. 


2. 自由度为4, 5%水平的拒绝域是多少？ 

从概率泉上壷得 X \( 4 ) = 9 . 49 , 即拒绝域忌 x l > 9 . 49 的范®. 


3. 检验统计量是多少？ 

检验说计 "I ■忌 X 2 ,前靣已轻计其过， ^)38.272. 


4. 检验统计量是在拒绝域以内还是在拒绝域以外？ 

X 2 蜣數值忌 38 . 27 ,且由子拒绝域态 X 2 > 9 . 49 , (§此乂 2 值子拒绝域.，1南. 


5. 你将接受还是拒绝原假设？ 

X 2 的數值值子拒绝城"1南，子是我们拒绝 雇假试 .即.我们省先足蛛证据拒绝上述"走虎机毐届收益符 
合也下概車今讳"这个原假试. 
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继续探 讨_ 


你蘇孖了老虎机之谜 

通过小心运用 X 2 分布，你发现有充足的证据证明老虎机不符合赌场期望它们 
符合的概率分布。肥蛋十分感激你，是你的证据说明老虎机被人动了手脚。 
他把这些老虎机停了，免得赔钱。 



让我们总结一下你的解答步骤。 

首先，你得到了老虎机的一组观察频数，然后假定这些频数符合某种特定的 
概率分布并算出了期望频数。然后你算出自由度和检验统计量 X 2 ,通过 X 2 可以 
看出观察频数和期望频数之间的总偏差。 

然后，你从 X 2 概率表查出显著性为 5% 时的拒绝域，经过与检验统计量进行比 
较，你发现有足够的证据 判定： 老虎机被人动过手脚，所以才会多赔钱。 



X 2 a ( v ) 


这种假设检验称为拟合优度检验——它检验观察频数是否和假设的概率分布 
相吻合。若你有一组数据，并希望这组数据符合某种分布，为了看看这组数 
据是否确实符合这种分布，则可以用拟合优度检验。 
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加强练习 





肥蛋认为骰子有问题。下表中列 出了一 个骰子的观察频数，查看这些数据，并以1 %的显 
著性水平进行检验，看看是否有足够的证据说明的确存在不公正。请按照我们给出的步 
骤进行。 

下面是观察 频数： 


数值 

1 

2 

3 

4 

5 

6 

频数 

107 

198 

192 

125 

132 

248 


第1步：决定要进行检验的假设和备择假设。 


第2步：求期望频数和自由度。 

首先填写骰子的期望频数，应考虑掷骰子的总次数以及每个数值的掷出概率。 X 代表掷出的骰子点数。 


X 



1 

107 


2 

198 


3 

192 


4 

125 


5 

132 


6 

248 



求出期望频数后，再算算自由度是多少？ 


^^自由度计其方紘和老虎机用的方这相同. 
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继续探讨 i 


第3步：确定用于做决策的拒绝域。 

将会用到显著性水平和自由度。 


第4步：计算检验统计量 X 2 。 

可以用第2步算出的观察频数和期望频数进行计算。 


第5步：看看检验统计量是否位于拒绝域以内。 


第6步：作出决策。 


第14章 X 2 分布 581 






加强练习解答 





肥蛋认为骰子有问题。下表中列 出了一 个骰子的观察频数，查看这些数据，并以1%的显 
著性水平进行检验，看看是否有足够的证据说明的确存在不公正。请按照我们给出的步骤 
进行。 

下面是观察 频数： 


数值 

1 

2 

3 

4 

5 

6 

频数 

107 

198 

192 

125 

132 

248 


第1步：决定要进行检验的假设和备择假设。 

忌7检验锻务是吾公正，我们必领确定是吾唷足够证掂说明锻5禾公正. 


H •。： 锻务公正，毐一面&值蜣擲出几率都相同，即每一*麩值的友丈概車态 V 6. 
H ■，:锻；不公正. 


第2步：求期望频数和自由度。 

首先填写骰子的期望频数，应考虑掷骰子的总次数以及每个数值的掷出概率。 X 代表掷出的骰子点数。 


X 

观察频数 

期望频数 

1 

107 

167 

2 

198 

167 

3 

192 

167 

4 

125 

167 

5 

132 

167 

6 

248 

167 


规察_目 

加，结系如 002 . 


100Z/6 


167. 


求出期望频数后，再算算自由度是多少？ 

我们必领弟出 6 个期 f 麵数，其总和4子 H 50 2 . 即我们必领求出 6 个信息，间时受刭1个限制. ® 比: 

V = 6 — 1 

= 5 
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继续探讨 1 


第3步：确定用于做决策的拒绝域。 

将会用到显著性水平和自由度 

从概率泉查出 X%(5) = 15.09, 子是拒绝域忌 X 2 > M.O 9 淤范 ®. 


第4步：计算检验统计量 X 2 。 

可以用第2步算出的观察频数和期望频数进行计算。 

(o - BY 


X 2 




(107-167) z /167 + (198-167) 2 /167 + (192-167) z /1 67 + (1Z5-1 67) 2 /167 + (13Z-1 67) 2 /167 4 - (248- 


167) 2 /167 


=(-60) 2 /167 + (31) z /167 + (Z5) 2 /167 + (-42) 2 /167 + (-35) 2 /167 + (81) 2 /167 


= (3600 + 961 H- 625 + 7764 + 1225 + 6561)/167 


= 14736/167 
= 88.24 


第5步：看看检验统计量是否位于拒绝域以内。 

拒绝域由 X 2 > 75.09 决定，由子 X 2 = 88.24, (§ 此检验说计責伖子拒绝域南. 


第 6 步：作出决策 

由子你鲶检验诜计責值子拒绝域南，说明在显著蚀水早忌％鲶倩况下，唷足够鲶证据拒绝原假试，子是你 
摟受备拷 假议： 骰务孓公正. 
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»栉 小抄 




A 是一定 g 同 
吻的滅 ' i 丰 


这么说可将 x 2 今邡拟合优度检 
验用子各种基础概率兮沛？ 


X 2 拟合优度检验对相当多的概率分布都有效。 

只要你得到一组观察频数，且能算出期望频数，就可以用 X 2 分布检验任何概 
率分布的拟合优度。 

最大的困难在于自由度 v 的计算，下面是最常用的一些概率分布的自由度， 
可在进行 X 2 拟合优度检验时使用。 




泊松分布 


正态分布 


P 是成功概率 .或老说 
是总体鲶成功概車。 


㈣——^ 

已知 P 

未知 p , 必须通过观察频数 v 

进行 估计 _ I 

" I 

- -^1 ,必须通过观察频数 
进行估计 _ ] 

■"已知 M 和 * 

未知 P 和 a 2 , 必须通过观察 
I ® 数进行估计 


^炎蚬察频麩 
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继续探讨 1 


肥蛋遇到 y 新问题 

前面你调查了老虎机是否被人动过手脚，用的是拟合优度检验，目的 
是判断观察频数是否与所期望的概率分布相吻合。肥蛋还有一个问题， 
这一次事关内部员工。 

肥蛋觉得有一位负责二十一点赌桌的庄家赔付的钱高于合理值。你能 
判断一下是否有显著证据证明肥蛋的怀疑没错？ 

下面是负责赌桌的三位 庄家： 



我们需要找到某种方法，检验赌局结果是否取决于坐庄赌局的庄家。 
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独立性检验 


X 2 分布玎认检验独交性 

前面讲到 X 2 分布可用于进行拟合优度检验， X 2 分布的用途不仅如此，它 
还能用于进行 独立性 检验。 


独立性 X 2 检验可用于判断两种因素是否相互独立，或两者是否看上去互 
有联系。这正合我们对庄家的检验要求一我们要检验在二十一点赌局 
中坐庄的庄家是否对赌局输贏有影响。换句话说，我们假定庄家的选择 
与输贏无关一除非有足够的证据可以反驳这一点。 


独立性检验的过程与拟合优度的检验过程 相同： 设立一个假设，用观 
察频数和期望频数计算 X 2 检验统计量，然后查看结果是否落在拒绝域 
以内。 



为了计篝检验统计置X 2 ,我们需要知道期望频数。 

这说明我们需要通过观察频数算出期望频数，这得依靠概率 
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继续探讨 I 


玎用概孳求出期望频数 

期望概率可通过几个步骤求得。 

首先，算出赌局结果和庄家总频数以及各项的总和，例如可列出下表, 
这叫做列联表。 


庄家 A 合计 



庄家 A 

庄家 B 

庄家 c 

合计 

贏 

43 

49 

22 

114 

平 

8 

2 

5 

15 

賠 

47 

44 

30 

121 

合计 

98 

95 

57 

250 


总和 

同样，可用庄家 A 的坐庄次数除以总和，求出庄家 A 的坐庄 概率： 

合计 A 

P(A) 


总和 

现在，按照我们的假设，如果庄家和赌局结果相互独立，那么, 
通过将两种概率相乘，可以求出庄家 A 坐庄时出现贏局的概率, 
即： 

贏局合计 A 合计 




现在我们可以用以上信息求出每一位庄家的贏局期望频数。 

让我们先求出庄家 A 的赢局期望频数。 

首先，我们可以用以上总和求出得到一个特定结果的概率，或者求出某位庄家的概率。 
例如，为了求出贏局概率，可以用贏局合计除以 总和： 

1[局合计 

P (籯> 


和 


P(AJ£ 贏局} 


$ 4 聋讲 ii . 对子独立 嗶件： 
P(A ㈣= P ( A) X P ⑹. 


-X 


总和 


总和 



动动膊 




我们如何利用以上公式求出庄家 A 的羸局期望频数？ 
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求解频数 


频数是多少？ 

前面求出了庄家 A 的赢局概率，我们希望通过这个结果求出赢局的期望 
频数。为此只要将庄家 A 的贏局概率乘以总和即可， 于是： 


期望频数 


贏局合计 


A 总计 
总和 


赢局合计 x A 总计 
总和 


即，为了求出庄家 A 的赢局期望频数，可用所有赢局合计数目乘以庄家 
A 的赌局数目，然后除以总和。 


一般我们如何求频数？ 

将以上结果推而广之，可以得到一个求频数的通用 公式： 为了求出特 
定行和特定列形成的组合的期望频数，可用每行合计乘以每列合计， 
然后除以总和。 


期望频数= 


行合计 x 列合计 
总和 


求出所有期望频数后，即可用它计算出检验统计量 X 2 ——这与前面的 
检验统计量相同。因此需要 计算： 


X 2 


= ^ (° 


用每一个观察频麩減去類望麵數. 
得结票求半方.再除4期 f 频麩. 
后加患. 




关 键是： 务必将每一个观察频数和每一个相应的期望频数都计算在内。 
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下表显示了各位庄家的观察频数。你的任务是算出所有期望频数。 




这些是观 
察麵數. 



庄家 A 

庄家 B 

庄家 c 

合计 

籯 

43 

49 

22 

114 

平 

8 

2 

5 

15 

踣 

47 

44 

30 

121 

合计 

98 

95 

57 

250 


在这銥表 I 
蜞入毐个期 
望掩鼓 .- 


(行合计 x 列合计)/总和 


庄家 a / 

(114 x 98)/250=44.688 

(1. f / x 98)/250=5.88 

(1/21 x 98)/250=47.432 


庄家 B 

庄家 C 








求出所有期望频数后，计算检验统计量 X 2 。下表可以提供 帮助： 第一列给出了所有观察频数，第二列是相应 
的期望频数，只要将第三列的所有数字加起来，就可以得到检验统计量。 
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练习解答 



下表显示了各位庄家的观察频数。你的任务是算出所有期望频数。 


斛著 

观秦麵數/ 



期寶—数平 


庄家 A _ 

(114 x 98)/250=44.688 

(15 x 98)/250=5.88 

(121 x 98)/250=47.432 


庄家 B _ 

I (7 74x95)/250=43.32 
(15x95)/250 = 5.7 
(121^95)/250=45.98 


庄家 C _ 

(114x57)/250 = 25.992 
(75x57)/250 = 3.42 
(7 27x57)/250 = 27.588 


求出所有期望频数后，计算检验统计量 X 2 。下表可以提供 帮助： 第一列给出了所有观察频数，第二列是相应 
的期望频数，只要将第三列的所有数字加起来，就可以得到检验统计量。 


(43-44.688) 2 /44.688 = 2.85/44.688 = 0.064 


(8-5.88) 2 /5.88 = 4.4944/5.88 = 0.764 


(47-47.432)747.432 = 0.187/47.432 = 0.004 


(49-43. 32) 2 /43.32 = 5.68/43.32 = 0.131 


(2-5.7)V5.7 = 13.69/5 .： 


.9204/45.98 = 0.085 


(ZZ-Z5.99Z) 2 /25.99Z = 15.936/25.992 = 0.613 


(5-3.42)V3.42 = 2.4964/3.42 = 0.730 


(30-Z7.588) z /Z7.588 = 5.817/27.588 = 0.211 
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继续探讨 1 


我们还 霜要计 翼§由度 

为了用 X 2 分布求观察频数的显著性，还需求出最后一 个值： V ， 即自由度值。 

前面讲过，自由度是在考虑限制条件的情况下，可以自由选择的独立信息的 
数目。这说明我们要査看有多少个需要独立计算的期望频数，再减去限制条 
件数目。 


首先，让我们求要计算的期望频数的总数目。我们必须算出三位庄家的期望 
频数以及三种可能结果，于是期望频数为3 x 3 = 9。 



对于每一行每一列，我们实际上只需要计算两个期望频数。我们已经知道总频 
数是多少，因此可以选择第三个频数，使得所有频数相加等于正确结果。也就 
是说，我们其实只需要计算其中4个期望频数，其余5个频数可以根据已知的总 


频数进行推导。 


我们只需要计 尊这 几个 
频數.其余蜣则可 .4 错 
助每一行和每一列的总 
頻麩书出. 




庄家 A 

庄家 B 

庄家 C 

贏 




平 




赔 





利用合竹玎站彤 
电最后一行和杳 
治一列於结系 • 


由于必须算出4个期望频数，于是自由度就等于这个数目——共需要计算4个 
独立 信息； 算出这些频数后，其余频数自然就知道了 。即 ： v = 4 0 


另一种得知自由度的方 法是： 我们总共需要计算9个数值，其中5个不用独立 
进行计算。用前面的公式可计算 v = 9- 5 =4。 
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又一次强化练习 



5. 看看检验统计量是否位于拒绝域以内。 

6. 作出决策。 
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继续探讨 I 


紙採足够，请 


尽错计 4. 
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又一次强化练习解答 





以1 %的显著性水平进行假设检验，看看赌局结果是否独立于坐庄的庄家。下面给出步骤 
提示，不过别忘了，有些结果前面已经算出来了。 

1. 确定要进行检验的假设及其备择假设。 

2. 求出期望频数和自由度。 

3. 确定用于做决策的拒绝域。 

4. 计算检验统计量 X 2 。 

5. 看看检验统计量是否位于拒绝域以内。 

6. 作出决策。 


第）步： 

我们要检验赌局输嬴锫票是杏独立子坐庄的庄家.子是: 
Ho ： 賭局输贏结票和坐庄蜣庄家没唷共系. 

H -,： 賭局输嬴结票和坐庄的庄家唷夹系. 


第2步: 

我们在 59 01求出了期 f 麵麩，并得出自由度基夂 


第3 多: 

从概车耒查出 X ^(4) = 13.28, 


( S 此拒绝域由 X 2 > 决定. 


第4 步： 

在 59 0负我们遝用期 f 麵數其出7 X 2 = 5 .0 CM . 


第5 步: 

拒绝域由 X 2 > JS . 28 恰出， ® 此 X 2 伖子拒绝域 .， i 外. 


第6 多： 

由子 X 2 值子拒绝域外， （ S 此我们接受原《议：没唷足够蛛证据证明赌局结票和庄家之同唷共系. 
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世上没布傻问题 


继续探讨 


i ») : 我还是不太确定自己是否理 
解了庄家自由度的算法。为什么有4 
个自由度？ 

^ : 自由度是这样计算 的：查 
看需要计算几个期望频数，然后再 
看这些频数中有几个能够仅仅通过 
观察每一列和每一行的观察频数合 
计即可得出。 


|»): 除了拟合优度检验和独立性 

检验， X 2 分布还有其他用途吗？ 

^ : X 2 分布主要就是这两种用 
途，记住，你几乎可以用它检验任 
意概率分布的拟合优度。例如，可 
以检验观察频数是否符合特定二项 
分布。 


1 ») : 我应该以任意显著性水平进 
行检验吗？ 

^: 看情况。与其他假设检验 

一样，显著性水平越小，为了拒绝 
原假设所需要的证据越强。 

检验时常用的显著性水平为5%和 
1%。 


问题中包含三名庄家，三组结果， 
如果用列联表进行计算，则各列和 
各行的期望频数合计必须等于观察 
频数合计。这说明，只要算出任意 
行或任意列的前2个频数，就可以 
通过合计求出最后一个频数。因此, 
完全自行进行计算的频数只有2 x 2, 
因此自由度为4。 




第14章 X 2 分布 595 




自由度的通用计算方法 


f 谂度 i 十髯 方法桕鈉 


前面讲到3 x 3列联表的自由度计算，如何归纳这个算法呢? 


假设你正在对两个变量进行比较，且一个变量有 h 行，另一个变量有 k 列, 
行和列的合计有办法知道。假设要求自由度的数目。 



列1 

… 

列 k -1 

列 k 

行1 





… 





行 h -1 





行 h 






每一行都对应着 k 列。你有办法知道每一行的合计，因此实际上只要算出 
( k -1) 列就行了，由于该行的总频数已知，因此第 k 列自然就会知道。 



列1 

… 

列 k -1 

列 k 

行1 







利用该行合竹. 


这盛是需要计莫始 


列的计算与此相似。每一列都对应 h 行，你有办法知道每一列的合计, 
因此可以算出 （ h -1 ) 行，由于该列的总频数已知，因此第 h 行自然就 
会知道。 



列1 

行1 


… 


行 h -1 


行 h 

< 


你需要针瀵 Vi - 1 行始 

你可 " i 用列合计其出 
第 h 行. 


596 深入浅出统计学 






继续探讨 I 

得出翼式…… 

综合以上结果，需要计算的期望频数的总数目为 ( k - l ) X ( h - l )， 即， 

如果有一张大小为 h X k 的表格，就可以通过下列算式得出自 由度： 


v = (h - 1) x (k-1) 
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肥蛋又招聘了两名庄家。现在自由度是多少？赌局结果保持 
不变。 

由子粑蛋又柁聘了兩名 在家.函此列 联表玄 

A - °•是原束的座家，肥蛋又抬聘 

了兩名座家. 




庄家 A 

庄家 B 

庄家 C 

庄家 D 

庄家 e 

A 






半 






賠 







自由度其式态 Oa-O * ( fc -7). 其中 h 糸行數， fc 基列數， 子是: 



动动笔解答 

「% 

^斛著 




要点 


| ■ 通过 X 2 分布可以进行拟合优度检验和变量独立 

性检验。 


检验统计量为 




_(0 - E ) 2 


E 


其中 O 指的是观察频数， E 指的是期望频数。 


■ 如果在 X 2 分布中用 X 2 作为检验统计量，则写 
作： 

X 2 ~ X 2 a ( v ) 

其中 v 为自由度， a 为显著性水平。 

■ 在拟合优度检验中， v 等于组数减去限制数。 

■ 在两个变量的独立性检验中，若列联表为 h 行 
k 列，则： 

v = ( h -1) x ( k -1) 
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继续探讨 I 


你救？肥蛋赌场 


多亏你精通 X 2 分布，你刨根究底地调查被动过手脚的赌具，对实际结 
果和期望结果之间的可解释差异进行了辨析，还以一定显著性水平 
研究了可疑的行为。 


你的工作让肥蛋开心起来。谢谢！肥蛋现在知道哪个赌博游戏需要 
调查，而庄家们则保住了自己的饭碗。下一次来这里的时候要通知 
肥蛋哦，他将多给你一些筹码——分文不取。 





肥蛋承诺免赍给你一堆 
醏场 箬码； 


m 

快试一把！ 




— 
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收尾练习 


>強练习 



肥蛋觉得有一个或多个庄家在控制轮盘赌的结果，下面是关 于每一 位庄家的停球颜色的观察频 
数数据。请以 5% 的置信度进行检验，看看球位颜色是否与庄家相互独立，或者说，是否有足 
够证据证明可能存在隐情。 



庄家 A 

庄家 B 

庄家 c 

红 

375 

367 

357 

黑 

379 

336 

362 

绿 

46 

37 

41 


第1步：决定要进行检验的假设及其备择假设。 


第2步：使用下列期望频数表，求期望频数和自由度。 

提示：首先姨写各行，各列的合针值，这唆 
合计值与前面的观察麵數合计值是相同的. 



庄家 A 

庄家 B 

庄家 c 

合计 

红 

1099X800/2300=382.3 

1099X740/2300=353.6 



黑 

1077X800/2300=374.6 




绿 

124X800/2300=43.1 




合计 

800 






第3步：确定用于决策的拒绝域。 
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继续探讨 1 


利用下表，计算检验统计量 X 2 C 



查看裣验统计置是否位于拒绝域以内。 


作出决策。 





























收尾练习解答 





肥蛋觉得 有一个 或多个庄家在控制轮盘赌的结果，下面是关于每一位庄家的停球颜色的观察频 
数数据。请以5%的置信度进行检验，看看球位颜色是否与庄家相互独立，或者说，是否有足 
够证据证明可能存在隐情。 



庄家 A 

庄家 B 

庄家 c 

红 

375 

367 

357 

黑 

379 

336 

362 

绿 

46 

37 

41 


第1步：决定要进行检验的假设及其备择假设。 

你要检验球值额色是吾与庄家相独立， ® 此: 

轮盘球值额色与庄家相互独立. 
h -,= 球伖颜色与在家相 i ■禾独立 


第2步：使用下列期望频数表，求期望频数和自由度。 

将毐一行与毐一列蜍合计相乘.再除总和，得出期 S 麵数. 



庄家 A 

庄家 B 

庄家 c 

合计 

红 

1099x800/2300=382.3 

1099x740/2300=353.6 

1099x760/2300 = 363.1 

1099 

黑 

1077x800/2300=374.6 

7 077 x 740/2300 = 346.5 

1077x760/2300 = 355.9 

1077 

绿 

124x800/2300=43.1 

124x740/2300 = 39.9 

124^760/2300=41 .0 

124 

合计 

800 

740 

760 

1300 


共省3行3列，用(行數 - f ) 乘"! (列數 - J ). 得剎自 由康: 
V = 2 X 2 
= 4 


第3步：确定用于决策的拒绝域。 

从概率表查#广/ 4 ) = 9.49, 子是拒绝域由 X 2 > 9.49 决定. 
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继续探讨 • 


第4步：利用下表，计算检验统计量 X 



(375-382.3) 2 /382.3 = 53.29/382.3 = 0.139 


(379-374.6) 2 /374.6 = 19.36/374.6 = 0.005 


(46-43.1 ) 2 /43.1 =8.41/43.1 =0.195 


(367-353.6) 2 /353.6 = 1 79.56/353.6 = 0.508 


(336-346.5) 2 /346.5 = 110.25/346.5 = 0.31 


(37-39.9) 2 /39.9 = 8.41/39.9 = 0.211 


(357-363.1) 2 /363.1 = 37.21/363.1 = 0.102 


(362-355. 9) 2 /355.9 = 37.27/355.9 = 0.105 


(41-41) 2 /41 







这表示检验说计■态 X 2 = 1.583^ 


第5步：查看检验统计量是否位于拒绝域以内。 

拒绝域由 X 2 > 9.48 恰定由子 X 2 = 1.583 t (3 此检验说计看值子拒绝域4外. 


第6步：作出决策。 

由子检验诜计量值子拒绝域4外， （ S 此在里著蚀水年态 5 茨的精况下，没唷免足鲶理由可4拒绝原假试.即， 
接受雇 假设： 球值赖色和庄家相互独立. 
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15 相兵 与锣归 


平 


+ »的 + 线条如何? 



你是否曾经为某两件事的相互关系困惑不己？ 

前面讲过的统计量只描述一个变量——如个人身高、篮球队员得分或是糖球口味持 
续时间，但是，另外还有一些统计量可以说明变量之间的关系。了解事物的相互关 
系可以丰富你的信息，让你了解真相，使你立于不败之地。来吧，让我们为你介绍 

发现事物关系的 秘诀： 相关与回归。 


进入新的篇章 605 


天晴——出席人数关系 



露天音乐会是最棒的音乐会一起码这两位帅哥是这么想的， 
他们承接组织一场商业性露天音乐会，夏季的票房看来有大 
卖的希望。 


今天的音乐会有望成为演出以来的最佳场次，乐队已经开始练 
习。只是，天边飘来一片乌云…… 


不消片刻，天色阴沉下来，气温骤降，雨似乎要下起来了。更糟 
糕的是，票房受创，小伙子们麻烦了，再出这种事他们可赔不起。 

小伙子们希望自己能够根据预计天晴时数（小时）预测出音乐会 
听众人数。这样一来，他们就可以衡量阴天可能给听众人数造成 
的影响。如果听众人数将少于3,500人——这时票房收人将无法抵 
消成本费用，那么他们就取消音乐会。 

他们需要你帮帮忙。 
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我的线条如何？ 


让我们分析夭崤时数和咁众人数 

下面是样本数据，给出了不同场次的预计天晴时数和音乐会听众人数 
的关系数据。利用这些数据，我们如何基于当天预计天晴时数（小 
时）估计出票情况？ 


天晴时数 （ 小时） 

1.9 

2.5 

3.2 

3.8 

4.7 

5.5 

5.9 

7.2 

音乐会听众人数 （ 百人） 

22 

33 

30 

42 

38 

49 

42 

55 




这简单.我们可 " i 求均值.标准差， 
再观察今讳，郓掸就金都清楚: r . 


大多数时候，我们只需要如此这般行事就能预瀏各种可能结果。 

这一次的问题在于，我们该求哪些数据的均值和标准差？我们该以音乐会 
听众人数作为计算基础，还是该以天晴时数作为计算基础？二者都没有给 
出我们所需要的全部信息一我们不能只使用一组数据，而是两组数据都 
要使用。 

前面我们只讲过独立随机变 s , 相关变量还没有讲到。我们可以假设，如 
果天气不好，则露天音乐会出现高上座率的概率将比天气好时的概率低。 
可是我们如何为这种关系建立模型呢？我们如何利用这个模型按照天晴时 
数预测听众上座率呢？ 

这取决于数据类型。 


P 动动滕 


你会如何建立模型描述两组数据的关系？ 
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认识二变量数据 


数椐类型採讨 

迄今为止，我们所使用的变量都是单变量。 

单变量数据考虑的是一个单一变量的频数或概率，例如，单变量数据可以描述 
赌场收益或是统计邦新娘的体重，在这两种情况下，所描述的对象各只有一种。 

单变量数据无法显示多组数据之间的关系，例如，如果用一个单变量数据描 
述一场露天音乐会的听众人数，那么这个变量无法说明当天预计天晴时数的 
任何情况，而只能给出音乐会听众人数。 



听众人数 


所以，如果我们需要了解不同变量之间的关系，该怎么办？尽管单变量无法 
为我们提供这类信息，却有另一种类型的数据能够办到——二变量数据。 


二变盪数梅 面面难 


对于每一个观察结果，二变量数据给岀两个变量数值——而不是一个，例如, 
对于同一场音乐会，或者说对于同一个观察结果，二变量数据会同时给出预 
计天晴时数和音乐会听众人数，如下 所示： 


一 文量數据感同 一 个观察结票 
提个重 f 數值. 


天晴时数 （ 小时） 

ia 

2.5 

3.2 

3.8 

4.7 

5.5 

5.9 

7.2 

音乐会听众人数 （ 百人） 

22 

33 

30 

42 

38 

49 

42 

55 


如果其中一个变量以某种方式受到控制，或者被用来解释另一个变量，则这 
个变量被称为自变量或解释变量，另一个变量则称为因变量或反应变量。在 
以上的例子中，我们希望用天晴时数预测听众人数，所以天晴时数是自变量， 
听众人数是因变量。 
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我的线条如何？ 


二变1数椐玎视化 

像绘制单变量数据图形一样，你可以绘制二变量数据图形，借此了解数 
据模式。这种图不是依照频数或概率绘制数值，而是以 X 轴描述一个变量， 
以 y 轴描述另一个相应变量。借助这种图可以以可视方式体现两个变量之 
间的关系。 

这种图叫做散点图或散布图，其绘制方法与其他图形的绘制方法相似。 

先画两条轴——横轴和纵轴，用 x 表示一个变量，用 y 表示另一个变量。自 
变 tt 通常用 x 轴表示，因变量用 y 轴表示。画出坐标轴后，取每个观察结 
果的数值，将它们画在散点图上。 


下面这张散点图显示了一场音乐会或一个观察结果中的天晴时数与音乐会 
听众人数的关系，由于预计天晴时数为自变 fi , 我们将它标在 x 轴上，音 
乐会听众人数为因变量，因此用 y 轴表示。 


天螬时麩画在入鈕 
上.听众人麩画在. 
fc ) 轴上. / 


X ( 天晴时数） 

1.9 

2.5 

3.2 

3.8 

4.7 

5.5 

5.9 

7.2 

y ( 听众人数） 

22 

33 

30 

42 

38 

49 

42 

55 


軚掂在 


眘乐会咁众人数鸟天畸时数 


听众人溆用 
y 鉍表示 ' 


听 

八50 

众 

人40 

数 


百 


30 

20 

10 

°o L 


X 


X 


X 


X 


x x x r^ 


X 


1 2 3 


又婧 时數用 X 鈾象示 


天睛时数 （ 小时） 


你能看出散点图如何帮助你将数据模式可视化吗？ 

你能看出如何借助这张图确定露天音乐会听众人数与当天预计天晴时数之 
间的关系吗？ 


第15章相关与回归 


609 




动动笔 
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我的线条如何？ 


案件：防晒糴销置 

一家防晒霜厂给了一名实习生一个任务——分析防晒霜销量，看看 
如何以最佳方式进行品牌营销。 


实习生拿到了一大堆现成的散点图，这些散点图针对防晒霜销 fi 和 


5穸钟 
推琪 



各种其他因素建立了模型。厂里要求他选出这样的 图形： 图上的 
两个因素看上去存在某种关系。这对销售团队有帮助。 

实习生找出的第一张图所绘制的是当天防晒霜销 s 与花粉量。 
他惊讶地发现，若花粉量高，则防晒霜销量大幅度提高。他决 
定告诉销售 团队： 他们需要考虑在广告中提到花粉量。 


销售团队听了他的建议后，一脸茫然地看着他。你觉得销售团队应 
该做什么？ 

花粉量多会促使人们购买防晒霜吗？ 
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你从图中看出了什么模式？这种模式与基础数据有何关系？如果 
是晴天，你对于露天音乐会听众人数有何期望？如果是阴天呢？ 

眘乐会咁众人数鸟夭磺对数 

X 

X 


X 


10 - 
n 

0 1 2 3 4 5 6 7 8 

天晴时数 （ 小时） 

t 先，从®中可 >. i 看出.數据点在 (£ 上呈直钱今沛，且这备钱随天蝻时麩增加而向上 爬針. 看束，也票顸计 
A 靖时數相对銨少，则音乐会听众人數也会減少.办票天精时麩增加.则可” i 期 f 音乐会参与人數也增加. 

这基绛上说明.天气饉婧朗，预期参加露尺音乐会蜣人就会姪多. 

嘀一个 ti •需要提一下，只嘀在处子數掂范®”1南时，我们彳铋自信地恰出这个结论，也系 A « t 时數小子2小 
时或太子 7.5 小时，则无數据可说明是何模式. 


散点®为你指出模式 

如你所见，散点图的作用在于能体现数据的实际模式，通过散点图, 
你可以愈发清晰地勾勒出两个变量之间的关系一如果确实存在某 
种关系的话。 

音乐会数据散点图显示出一种独特的模式——数据点呈直线分布， 
我们将这种现象称为相关。 


动动笔解答 


动笔 
\斛奢 


当然，我们还没有讲过如何分析二变量数据，不过让我们看看 
你是否能为音乐会组织者深入分析散点图。 


0 0^00 
6 5 4 3 2 

听众人数 { 百人) 
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我的线条如何？ 

- 线性相兵细细煮 

散点图显示出数据对之间的相关性。 

相关性即变量之间的数学关系，通过散点图上的点的独特构成模式，可以 
识别出散点图上的各种相关性。如果散点图上的点几乎呈直线分布，则相 
关性为线性。 

让我们看看两个变量之间的相关性的几种常见 类型： 

正线性相兵 

当 X 轴上的低端值对应 y 轴上的低端值，同时 x 轴上的高端 
值对应 y 轴上的高端值且呈直线分布时，为正线性相关。 

即随着 x 增长， y 也呈现增长趋势。 


所侩剷鲶代表人和 y 妹点 
( S 後在一备直钱阄® • 

负线性相兵 

当 X 轴上的低端值对应 y 轴 上的高 端值，同时 x 轴上的高端 
值对应 y 轴上的低端值且呈直线分布时，为负线性相关。 
即随着 x 增长， y 呈现下降趋势。 


这樣®显矛电/种瘦 
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相关关系与因果关系 


咖哧床鸟嚕衿店 


在咖祕 

/ 二⑽ 軚目換 


M 啡店数目 
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相兵兵系乌谬果兵系 



存在相关共系是杏意咮 
省一个重量会彩响另一 
个变量？ 


两个变置之间存在相关关系并不一定意味藿一个变量会影晌另 一个变 
置，也不意味藿二者存在实际关系。 

两个变量之间的相关关系意味着二者之间存在某种数学关系，即，当我们 
在图上绘制数值时，我们能够看出某种模式，并能够预测出没有出现在图 
上的数值。我们并不知道两个变量之间是否存在实际关系，当然，我们也 
不知道一个变量是否会影响另一个变量，或是否有其他因素在发挥作用。 

举个 例子： 假设你收集了一些数据并发现，随着时间的推移，某个小镇上 
的咖啡店的数目增多了，同时唱片店的数目减小了。这可能的确是实情， 
但我们不能说咖啡店数目和唱片店数目之间有什么实在的关系，即，我们 
不能说咖啡店数目的增加导致了唱片店数目的减小。我们只 能说： 在咖啡 
店数目的增加的同时，唱片店的数目减少了。 


我的线条如何？ 


破案：防晒霜销置案例 


花粉量多会促使人们购买防晒霜吗？ 


一位销售员走到实习生身边。 

“谢谢你出的主意。”她说道，“可是我们不打算 
用它做广告。要知道，花粉量多不会促使人们多买 
防晒霜。” 

实习生困惑地看着她，“可散点图上不是明摆着吗，当花 
粉量上升时，防晒霜销量也上升。” 



推琺 


“确实如此。”销售员说道，“但这并不意味着花粉童多会导致销 M 
大。在花粉量多的日子里，通常天气晴好，于是人们就会增加户外活 
动，人们多买防晒霜是因为他们在进行户外活动。” 
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世上没有傻问题 



世上 M 傻问题 


Ip ) :这么说预计天晴时数会影响票房收入？ 

^: 二变量数据表明两个变量之间存在某种数学关 
系，但我们无法用二变量数据证明原因和结果。凭直 
觉，若天气晴朗，去听音乐会的人会增多，但我们不 
能肯定地说是天晴造成了人们去听音乐会。我们还需 
要做更多调查，因为可能存在其他因素。 

其他因素？例如？ 

^: 比如参加演出的艺术家的名气。如果一位著名 
艺术家正在举办一场音乐会，那么，无论天气如何，粉 
丝们都会去听音乐会。类似道理，一位冷门艺术家则不 
可能受到粉丝们的同样追捧。 


(«) :散点图用的是总体数据还是样本数据？ 

^ : 都能用。大多数时候，你实际上是在用样本, 
但无论是用样本还是用总体，绘制散点图的过程都相同。 

(») :如果两个变量之间有关系，必须是线性关系吗？ 

^: 相关性量度的是线性关系，但并不是所有关系 
都是线性的。例如，两个变量之件的某种强关系可能 
是一条特别的曲线，例如 y=x 2 。 不过，我们在本章中只 
介绍线性关系。 
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我的线条如何？ 



前面讲到什么是二变量数据，以及散点图如何体现两个变量之间是否 


存在数学关系，不过还没有讲过如何利用散点图进行预测。 


接下来我们就需要看看，如何利用已有数据根据预计天晴时数预测音 
乐会听众人数。 






你觉得我们该如何为二变量数据进行这类预测？ 
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最佳拟合线 


用最佳枞含线预测数值 


前面讲到如何借助散点图看出是否存在某种模式，从而判定数值之间 
是否存在关联。那么如何利用散点图根据天晴时数预测音乐会听众人数 
呢？——在已知当天天晴时数期望值的情况下，你会如何利用现有散点 
图预测音乐会听众人数？ 


其中一个办法是，在散点图上画一条穿过这些点的直线，使这条线尽量 
接近各个点。你无法令这条直线穿过每一个点，不过，若存在线性相关 
性，则应该可以保证每一个点合理地接近你所绘制的直线。如此一来， 

你就可以根据预计天晴时数找出音乐会人数的估计值。 

这就4铕俭制晌直 钱' 


这是肩表蝣 
栽点® . 



它穿边 


天晴时数 （ 小时） 


能最好地接近所有数据点的线被称为最佳拟合线。 


最值批合钱？只要看老顺眼 
就铖精出这备钱了？这可该禾 
上科#蚀. 


用这种方法画出的线只是一种鼉佳猜测。 

用以上方法绘制图线的问题 在于： 这只是一个估计，因此根据这条线 
做出的任何预测都值得怀疑。你没有什么精确的方法量度这条线是否 
确实是最佳匹配线。这条线具有主观性，这条线的拟合质量取决于你 
的判断。 
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我的线条如何？ 


最佳猜删仍是猜测 

假想你请三个人按照他们各自的想法画出音乐会听众人数最佳拟 
合线，很可能每个人都会画出与别人略有差别的最佳拟合线，如 
图所示： 


天晴时数 （ 小时） 

这三条线都可以想当然地被认为是数据的最佳拟合线，但我们无法 
知道哪一条线是名副其实的最佳拟合线。 

我们确实需要找一个可以通过目测方式绘制最佳拟合线的办法。这 
不是一种猜测方法，而是一种更可靠的方法——使用数学或统计方 
法利用手头数据去找岀最佳拟合线。 

我们熏要求出盥线公式 

直线的公式为 y = a + bx , 其中 a 为直线与 y 轴的交点， b 为直线斜 
率，于是我们可以用公式 y = a + bx 表示最佳拟合线。 

在我们的例子中，我们用 x 表示预计天晴时数，用 y 表示相应的 
露天音乐会听众人数，只要我们能用音乐会听众数据求出 a 和 b 
的最合适数值，就有可靠的方法求出直线等式，且能够以更为 
可靠的方法按照预计天晴时数预测音乐会听众人数。 

x 


y = a + 直权 
公貳，其中《和10功 



«用 
彳该 
同你 
桐. 

不同 
各桐 

*象^ ' 
这据\ 



o o o o < 

5 4 3 2 ' 

听众人数(百人) 


第15章相关与回归 619 



最佳拟合线和误差平方和 


我们熏要将误差最小化 


让我们看看对最佳拟合线 y = a + bx 的要求。 

最佳拟合线即能最准确地预测出所有点的真实值的线。即，对于每一个已 
知的 x 值，我们需要让数据集中的每个 y 变量尽可能接近我们通过最佳拟合 
线估计出来的数值。即，在已知某个天晴时数时，我们希望自己估计的 
露天音乐会听众人数尽可能接近实际值。 


最佳拟合线即表达式为7 = a + b X 且使得 y 的实际观察值与每个 x 相对应的 y 
的估计值的差距为最小的线。 


这姿值是同一 
个八偟对在姥 y 
的实标值和估 
计值. 



'a + bx 

:二:所⑽二 备 

饫汔最住批合钱. 


让我们用 yi 表示数据集中的每一个 y 值，用\表示通过最佳拟合线得出 


的估计值。这种表示方法与前面章节中的点估计量的表示方法一致， 
因为 " 符号代表估计值。 

我们想让 y 的实际值和我们根据最佳拟合线得出的估计值之间的差为 
最小，也就是说，我们想让1与％的差别之和为最小，试算 如下： 

2 (yi - Yj) 

可是，这个算式的问题是，实际上所有的距离都会相互抵消。我们 
需要稍微调整一下算法一这个算法前面已经出现过了。 
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我的线条如何？ 


认识误差乎方和 

还记得我们第一次推导方差的时候吗？我们希望求出数据组中的数值与 
均值之间的距离之和，但这些距离却相互抵消。为了解决这个问题，我 
们将所有距离先求平方，然后加总，从而确保所有数值都是正的。 

现在我们碰到了类似的情况。需要先将所有距离求平方再加总，而不是 
计算一对对实际值和期望值的距离之和。这样我们就能保证所有的数值 
都是正的。 


距离平方之和被称为误差平方和，英文缩写为 SSE 。 算式 如下： 

误差早方和 


A 


，一 实际 K 纽 ㈣ 仲合⑽电 
的顸谢值之阂淤差愷. 


~^SS-E = I (y - y ) 2 


即，取各个数值 y , 减去通过最佳拟合线得出的 y 的预测值，求其平方， 
然后将所有平方数加起来。 



O 


方差与 SSE 的计篝方法相似。 

SSE 并非方差，不过，它确实涉及两个特定点之间的距离的平方——它 
给出了 y 的实际值和根据最佳拟合线得出的 y 的预测值之间的距离的平方 
之和。 

我们现在需要做的就是根据 y = a + bx 这条线，求出使得 SSE 最小的 a 和 b 
的数值。 
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计算最佳拟合线的 b 值 


求最佳枞含线公式 

前面讲到我们想得到误差平方和 Z(y - 为最小的直线式，其中 y = a 
+ bx , 从而可以得到3和1)的最优值，进而得到最佳拟合线公式。 


让我 们先萁 b 


y = a + bx 中的 b 代表这条直线的斜率，或者叫陡度，即 b 是最佳拟合线 
的斜率。 


我们就不进行证明了，下面直接给岀使得 S ( y - f ) 2 为最小的 b 值： 毐一个 ; c 值減去值’ 

值戚去 y 淤均值 

Z ((x - x)(y - y)) 


b 


thi% 數 


I (x - x ) 2 



计算初看很 S 杂，但实际上并不那幺难。 


首先，求出7和7——手头数据的 x 均值和 y 均值，此后，对每一个观察结 
果计算 (X- 幻乘以 (y-7), 然后将结果加起来。最后，用整个结果除以 
X(x - x )\ 公式的最后一部分与样本方差的计算方法十分相似，唯一的 
区别是这里不除以 ( n -1)。 你也可以利用软件完成所有计算。 


下面让我们看看实际运用。 


0 




如果在考试中需要用到这个公式， 
几乎可以肯定会给出这个公式。 

也就是说你不用记住这个公式，只要会用就行了。 
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我的线条如何？ 


求最佳枞含线斜率 


让我们看看能否用以上公式求出描述音乐会数据的直线 y = a + bx 的 
斜率，首先回顾一下 数据： 


X ( 天晴时数） 

1.9 

2.5 

3.2 

3.8 

4.7 

5.5 

5.9 

7.2 

y ( 听众人数） 

22 

33 

30 

42 

38 

49 

42 

55 


让我们先求7和 y , 即的样本均值。计算方法和以前完全一样, 
即： 

x = (1.9 + 2.5 + 3.2 + 3.8 + 4.7 + 5.5 + 5.9 + 7.2)/8 
= 34.7/8 
= 4.3375 

f = (22 + 33 + 30 + 42 + 38 + 49 + 42 + 55)/8 
= 311/8 
= 38.875 



利街) c 值尔又'利用 
y 值浴 y . 


求 出又和 y 以后，就可以借助这些值用本页前一页的公式算出 b 。 

偖助^和7求出 b 

公式的第一部分是 S(x - 50 (y - 刃，为此我们取各个观察结果的 x 值和 
y 值，用 x 减用 y 减然后将两个差相乘，对每个观察结果完成以 
上计算以后，再将所有乘积加起来。 


Z(x - x)(y - y) 
U - x) (y - y) 


▲ 每一徂軚掂鹼所嘀 
乘积桐加. 


(1.9 - 4.3375)(22 
(3.8 - 4.3375)(42 


38.75) + (2.5 - 4.3375)(33 - 38.75) 
38.75) + (4.7 - 4.3375)(38 - 38.75) 
15.9 - 4.3375)(42 - 3^75)> (7.2 - 4.3375)(55 - 38.75) 


(3.2 - 4.3375)(30 - 38.75) 
(5.5 - 4.3375)(49 - 38.75) 


(-2.4375)( - 16.75) + (-1.8375)(-5.875) + (-1.1375)(-8.875) + (-0.5375)(3.125) + (0.3625)(-0.875) + 
(1.1625)(10.125) + (1.5625)(3.125) + (2.8625)(16.125) 

40.828125 + 10.7953125 + 10.0953125 -1.6796875 -0.3171875 + 11.7703125 + 4.8828125 + 
46.1578125 


= 122.53 ( 保留 2 位小数) 
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计算最佳拟合线 b 值，第二部分 


求最佳枞含线的斜率，第二鄯分 

下面是音乐会听众人数和预计天晴时数 提示： 


这炎公式提亦. 

_ 

z (X - x)(y - y) 


X ( 天晴时数） 

1.9 

2.5 

3.2 

3.8 

4.7 

5.5 

5.9 

7.2 

y ( 听众人数） 

22 

33 

30 

42 

38 

49 

42 

55 


b 


I (x - x ) 2 


我们正在进行 y = a + bx 中 b 值的计算。我们已 求得又 = 4.3375, y = 38.875, 
S(x - 幻 (y - y ) = 122.53。 最后要求的是 S(x - 幻 2 , 让我们算 下去： 




餘.，；(卟 



迓意，这里 
禾用 y 和& 


E(x - x ) 2 = (1 9 - 4.3375) 2 + (2.5 - 4.3375) 2 + (3.2 - 4.3375) 2 + (3.8 - 4.3375) 2 + (4.7 - 4.3375) 2 + (5.5 - 4.3375) 2 
| V ^ 4. i 375 )pf (7.2 - 4.3375) 2 

(-2.4375) 2 + (-1.8375) 2 + (-1.1375) 2 + (-0.5375) 2 + (0.3625) 2 + (1.1625) 2 + (1.5625) 2 + (2.8625) 2 
23.02 (保留 2 位小数） 


Oc-^) 


用 S ( x -50( y -7) 除以 2( X -5 f ) 2 , 即得到数值 b , 因此： 


b = 122.53/23.02 叙们已径帛出？ 13 .由此得到 最住 
= 5 32 4^一-批合伖淤斜率. 

即，数据的最佳拟合线为 y = a + 5.32 x 。 不过， a 是多少呢？ 


f 5 ) :你给出的公式看上去是针对 
样本的，不是针对总体的。对吗？ 

签 •• 对。我们用了样本而不用 
总体，这是因为我们手头有的数据 
是样本数据。要是你有总体数据的 
话，请尽管用，只要用( X 代替 I 就 
行了。 
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世上设布儍 f 5 ) 题- 

f 5 ) :数值 b 永远是正数吗？ 

^ : 不一定。 b 到底是正还是负取 
决于线性相关类型，若为正线性相关， 
则 b 为正，若为负线性相关，则 b 为负。 

(») : 我还听说过 “ 陡度" 一词， 

它是什么意思？ 

^ : 陡度是直线斜率 b 的另一个 
名称。 


(») : 要是不存在相关关系怎么 

办？我还能算出 b 吗？ 

^ : 如果不存在相关关系，你 
仍然可以通过技术手段求出最佳拟 
合线，但这不是数据的有效模型， 
无法通过这个模型做出准确预测。 

1»):计算 b 有简便方法吗？ 

^: 如果观测结果很多的话， 

计算 b 十分繁琐，不过你可以借助软 
件进行计算。 




b 求出采 ？ ， a 艰? 


我的线条如何？ 
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最小二乘回归法细细看 




最小二乘锣归法细细看 


我们用于求出最佳拟合线的数学方法称为最小二乘回归法。 

最小二乘回归法是一种数学方法，可用一条最佳拟合线将一组二 
变量数据拟合，通过将公式为 y = a + bx 的一条直线与一组数值相 
拟合，使得误差平方和最小——即，使得实际数值与这些数值的估 
计值之间的差值最小。误差平方和的公 式为： 

SSE= I(y-y ) 2 

为了对一组数据使用最小二乘回归法，需要求出 a 和 b 的值 ， y 6C 
使数据点与直线 y = a + bx 的拟合度最大，且 SSE 最小。 a 和 

5C 

b 计算 如下： 

I (x - x)(y - y) 4C 

b = - = — 3C 

I (X - X ) 2 



y - bx 


求出最佳拟合线 y = a + bx 之后，就可以用这条线根据已知的 x 值 
预测 y 值，这时只要将 x 代人等 Sy = a + b x 即可。 

直线 y = a + bx 被称为回妇线。 


加 o / 


在预测一个特定 x 值对应的 y 值时，要避免对 
已知数据点范围以外的值进行预瀏。 


线性回归法只是根据手头拥有的信息进行估计 
的一种方法，它体现了已知的各个数据点之间 
的关系，这并不表示它也适用于数据限值以外的 范围。 
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我的线条如何？ 


%" 




我们已经求出了回归线方程式，音乐会组织者在此有两个问题要 
请教你。下面再提示一下回归线 公式： 

y = 15.80 + 5.32x 

其中 x 是预计天晴时数， y 是音乐会听众人数，以°百人”为单位。 


下一场 音乐会当天天晴时数预计为6小时，问期望听众人数是多少？ 


如果音乐会听众人数会在3,500人以下，音乐会组织者将没有利润，因此将取消音乐会。问相应的预计天晴 
时数为多少？ 
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动动笔解答 

动笔 
、、解箸 


我们已经求出了回归线方程式，音乐会组织者在此有两个问题要 
请教你。下面再提 示一下 回归线 公式： 

y = 15.80 + 5.32 x 

其中 x 是预计天晴时数， y 是音乐会听众人数，以“百人”为单位。 


下一场 音乐会当天天晴时数预计为6小时，问期望听众人数是多少？ 

由子 X 是预计天皤时數，已知 x =6. 我们需要求出相应淤音乐会斫众人數预测值，也就是要求这个; C 值对 
应鲶 y 值. 

y = 15.80 + 5.32x 
= 15.80 H- 5.32 x 6 
= 15.80 + 31.92 
= 47.72 

由子 y 蛛单值忌“方人”， ® 此期 f 的音乐会听众人麩忌 47 . 72 X 彳00 = 4772 . 

如果音乐会听众人数会在3,500人以下，音乐会组织者将没有利润，因此将取消音乐会。问相应的预计天晴 
时数为多少？ 

这一攻要氺蜣是特定 _ y 值的相应 X 值.音乐会听众人數忌 ^Py = 35,子是： 
y = 15.80 + 5.32x 
35 = 15.80 + 5. 32 人 
35 - 15.80 = 5. 32 人 
19.2 = 5.32 人 
X = 19.Z/5.32 
= 3.61 (保留兩值小數) 

即，我们预测出鲶结 票是： 也票预计天精时數少子 W 小时，则音乐会听众人數将低子 3 ,知0人. 
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我的线条如何？ 


你 B 经找出 了兵系 

到此为止，你已经使用线性回归法建立了预计天晴时数与音乐会听众人 
数之间的关系模型。利用 y = a + bx , 只要知道预计天晴时数，就能预测 
出音乐会听众人数。 

能够预测听众人数意味着你将能切实帮助音乐会组织者了解能够对票房 
寄予多大期望，他们还能在合理范围内期待每场演出能够实现的利润 


尽管美其名曰“最佳拟合线”，我们却并不知道这条线的准确 
性如何。 

直线 y = a + bx 是我们能够得出的最佳拟合线，但若以它为模型描述 
天晴时数与音乐会听众之间的关系，准确性大吗？一还有一事需 
要 考虑： 回归线的相关性强度。 

切实有用的做法是，找到某种办法，指出各个点偏离直线的距离， 

这会告诉我们根据已知条件得出的期望结果到底有多大的精确性。 

让我们看几个例子。 

动动膊- 

你为什么认为了解相关强度十分重要？你觉得这会给音乐会组织者带来什么影响？ 
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相关类型 


让我们壹看一些相兵兵系 


一组数据的最佳拟合线是我们所能得出的可作为两个变量之间数学关系 
模型的最佳直线。 


尽管最佳拟合线是与数据拟合程度最高的直线，但它并不可能与每一 
个点都精确拟合。让我们观察几组数据，看看直线与数据的拟合情况。 



鞲碥线性相兵 

这一组数据的线性相关性呈现出精确的数据拟合。 
回归线并非百分之百完美，但几近如此。很可能依 
据这条线做出的任何预测都是准确的。 


我幻该粑殘-画 
在啷儿7 


个 

X 

X 

X 


X 





今 X 

X 


X 




X 



X 


X 

X 

X 

X 

X 

X 

X 

-> 




非线性相兵 

这一组数据未体现出线性相关性。你可能能用最小二 
乘回归法算出一条回归线，但据此做出的任何预测 
都不太可能准确。 


你能发现问题所在吗？ 

两组数据都有回归线，但数据的实际拟合程度却大不相同。第一组数 
据的相关性十分明显，但第二组数据十分分散，以至回归线丧失应有 
的作用。 


最小二乘估计可用于预测数值，也就是说，如果有某种方法能够指出 
数据点与直线的拟合程度，同时能指出我们的期望预测结果能够达到 
的精确程度，那么最小二乘估计就能发挥作用。 

有一种方法可用于计算直线拟合度——称为相关系数。 
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我的线条如何？ 


用相兵系数銜1 疽线乌 数椐的枞含度 

相关系数是介于 -1 和1之间的一个数，描述了各个数据点与直线的偏离程度。 
通过它可以量度回归线与数据的拟合度，通常用字母 r 表示。 

如果 r •等于 -1, 则数据为完全负线性相关，所有数据点都在一条直 线上； 如 
果 r 等于1，则数据完全正线性相关。如果 r ■等于0,则不存在相关性。 


个 X 

! 

\ 

X 

X 

X 


个 

X 


X 





X 


X 

X 


X 



X 




X 



X 

卞 



X 


X 

X 


X 


X 

X 


X 

X 


y. 



X 



- > 




— 


- > 



V— -I r—O 


X 


X 


X 


X 


X 


X 


X 




V—I 


-1、0和1均为极值，通常 r 为介于这几个极值之间的数值。 

如果 r 为负，则两个变量之间存在负线性相关。 r 越接近 -1, 
相关性越强，数据点距离直线越近。 

如果 r 为正，则两个变量之间存在正线性相关。 r 越接近1, 
相关性越强。 


总之，随着 r •向0靠近，线性相关性变弱。于是回归线无法 
像 I •接近1或接近 -1 时那样准确地预测 y 值，数据模式可能会 
随机变化，或者说变量之间的关系可能是非线性的。 

如果我们能算出音乐会数据的 r 值，就会得知我们根据预 
计天晴时数预测出的音乐会听众人数的准确性。如何计算 
r ? 下一页将进行讲解。 



把 r 虫忭相互关系 
桃名榜. 
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计算相关系数 
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我的线条如何？ 


求眘乐会数据的 r 

让我们用公式求出音乐会数据的 r 值。首先看一看数据 提示: 


X ( 天晴时数） 

1.9 

2.5 

3.2 

3.8 

4.7 

5.5 

5.9 

7.2 

y ( 听众人数） 

22 

33 

30 

42 

38 

49 

42 

55 


必须知道数值 b 、 S x & S y 才能利用本页反面的公式求出 r 。 前面已经 求出: 

b = 5.32 < r — 这是我们先箾杰! k 鲶直钱鲶斜車. 


可是 S x * S y 是多少呢？ 

让我们先求 S ,。 我们先前求出 Z ( x -3 T ) 2 =23.02, 且已知样本大小为8。这 
就是说，如果我们用 23.02 除以7,就能得出 x 的样本方差。取其平方根 
即可得到 S ,。 


s x = V (23.02/7) 

= V 3.28857 

= 1.81 (保留两位小数) 




这具值的标准差， 


由子炎#绛粒愷， ® 此除4八 


剩下唯一要求的就是 S y , 前面已经求出7 = 38.875, 于是: 


Z(y - y ) 2 = (22 - 38.875) 2 + (33 - 38.875) 2 +(30 - 38.875) 2 +(42 - 38.875) 2 + (38 - 38.87 S ) 2 + 
(49 - 38.875) 2 + (42 - 38.875) 2 + (55 - 38.875) 2 

=(-16.875) 2 + (-5.875) 2 + (-8.875) 2 + (3.125) 2 + (-0.875) 2 + (10.125) 2 + (3.125) 2 + (16.125) 2 
= 780.875 ( 保留三位小数） 


我们可以用以下公式求出 S y , 就是将 2：( y -7) 2 除以 n -1, 再取其平方 


根值。 


s y = V (780.875/7) 

=VI 11.55357 
= 10.56 (保留两位小数) 


一 最后 • 



我们闲嵙寿中 嬈 y 值彤 出5 11 —0的标准差. 


现在，我们只要用 b 、 &和5鼻出相关系数 r 就行了。 
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计算 r 和世上没有傻问题 


求眘乐会数椐的 r (续） 

我们已经求出 b = 5.32, s x = 1.81, s , = 10.56, 将这些结果用起 
来，得出 r : 

r = bsx/s y 

= 5.32 x 1.81/10.56 
= 0.91 (保留两位小数） 

由于 r 接近1,说明露天音乐会听众人数和预计天晴时数之 
间有很强的正相关。换句话说，根据我们手头的数据，我 
们可以期望，最佳拟合线 y = 15.80 + 5.32 X 根据预计天晴时 
数给岀了期望音乐会听众人数的合理的良好估计。 


|»): 我见过别人用其他方法计算 r , 
他们错了吗？ 

^ : r 的计算公式有好几种形式, 
但这些形式本质上是一样的。我们采 
用的是最简单的形式，这样便于看出 
哪些部分已经在求 b 的过程中算过。 

(») : 这样小的一个样本能得出正 

确结果吗？ 

^ : 样本大一点儿当然更好， 
我们用小样本只是为了让计算过程 
更容易看懂。 

( P ) : 你既没有证明也没有推导 b 

和 r 的计算公式，为什么不做呢？ 

^: 推导 b 和 r 的计算公式既繁且 

杂，本书决定不予推导。关键是要 
了解使用时机、使用方法。 


世傻问题 

|»): 如果预计天晴时数为0, 
众人数的期望值是多少？ 

^: 我们无法肯定地回答这个 
问题，因为这已经远远超出我们的 
数据范围。对于在我们所拥有的数 
据范围以内的数据，最佳拟合线能 
给出相当良好的估计，但对于这个 
数据范围以外的数据，我们就毫无 
把握。那些数据可能具有其他模式, 
因此我们所给出的任何估计都是不 
可靠的。 

|»): 前面讲到平均数的时候，我 
们曾经看出单变量数据可能出现异常 
值。那么二变量数据呢？ 

^: 没错，二变量数据也可能出 
现异常值。异常值即距离回归线极 
远的那些点。如果存在异常值，则 



3 4 5 6 

天晴时数 （ 小时） 


可能意味着你的数据集中有异常情 
况，或者，说明你的回归线与数据 
的拟合程度不佳。 

|»): 我曾经听人说起过“有影响 

观察结果”，这是什么东西？ 

^ : “有影响观察结果”是一 

些在水平方向上与其余点相距甚远 
的点，因此，它们有一种将回归线 
朝着它们拉近的效果。. 

1»): 这么说有影响观察结果和异 

常值 是一回 事儿？ 

^: 不对。异常值远远偏离回归 

线，而有影响观察结果则是在水平 
方向上远离数据的点。 


605040302010G 

y 听众人数(百人) 
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相关与回归 


你力娩狂澜 f 


你对音乐会数据的计算让音乐会组织者大为惊讶，现在他们可以 
根据天气预报预测音乐会听众的可能人数了，也就是说有办法让 
利润达到最大值。 





o 


牛速了，老兄！ 这是下 
-场演出紿免赍入场券! 
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加强练习 



>強练习 


妖怪思凡达正在采集数据一关于辐射对阿梅森上尉的超人力量产生的影响。下面是辐 
射时间与阿梅森上尉能够举起的吨重的成对数据。 


辐射时间 （ 分钟） 

■ 

3.5 

4 

4.5 

5 

5.5 

6 

6.5 

7 

重量（吨） 

14 

14 

12 

10 

8 

9.5 

8 

9 

6 


你的任务是用最小二乘回归法求出最佳拟合线，然后求出相关系数，说明直线与数据的关联强度。请画出 
散点图。 

如果思凡达让阿梅森上尉在辐射线下照射5分钟，你期望阿梅森上尉举起多重的重量？ 
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我的线条如何？ 


紙#足够. 
请尽馕 地其吧 1 
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加强练习解答 





妖怪思凡达正在采集数据——关于辐射对阿梅森上尉的超人力量产生的影响。下面是辐 
射时间与阿梅森上尉能够举起的吨重的成对数据。 


辐射时间 （ 分钟） 

3 

3.5 

4 

4.5 

5 

5.5 

6 

6.5 

7 

重置（吨） 

14 

14 

12 

10 

8 

9.5 

8 

9 

6 


你的任务是用最小二乘回归法求出最佳拟合线，然后求出相关系数，说明直线与数据的关联强度。请画出 
散点图。 


如果思凡达让阿梅森上尉在辐射线下照射5分钟，你期望阿梅森上尉举起多重的重量？ 


让我们用 x 表示辐射时同，用表示奉起蜣吨重.我们需要求出回归钱 ! j = a + bx , (3 此让我们先求灭和& 
i = (4 + 4.5 + 5 + 5.5 + 6 + 6.5 + 7)/7 
= 38 . 5/7 
= 5.5 

0= (72 + 70 + 8 + 9.5 + 8 + 9 + 6)/7 
= 62.5/7 

= S.9 (保留雨值小數） 

接 4, 让我们计其 天 )( y - 只)、 J ： U - x ) 2 & b . 

^ Oc - x) (y - y) = (4-5.5) (f 2-8.9) 4 - ( 4 . 5 - 5 . S ) ( 10 - 8 . 9 ) + (5-5.5) (8-8.9) + (S.5-5.5) ( 9 . 5 - 8 . 9 ) + 

( 6 - 5 . 5 ) ( 8 - 8 . 9 ) + (6.5-5.5) (9-8.9) + (7-5.5) (6-8.9) 

= (- 1 . 5 ) ( 3 . 1 ) + + (-0.5) (-0.9) + (0) (0.6) + (0.5) (-0.9) + (f )(0.7) + (7.5) (-2.9) 

=-4.65 - 1.1 + 0.45 + 0 - 0.45 + O.f - 4.35 
= -10 

E (x-X) 2 = (4-5.5) 2 + (4.5-5.5) 2 + (5 - 5.5) 2 + (5.5 -5.5) 2 + (6-5.5) 2 + (6.5-5.5) 1 + (7-5.5) 2 
= (~f.5) 2 + (一 7) 2 + (-0.5) 2 + 0 2 4 - 0.5 2 + ” + 1 . 5 2 
= 2.25 + 1 + 0.25 + 0 + 0.25 + 1 H- 2.25 


_ (x - x) (y - y) 
E(x-x ) 2 

= -70/7 

= - 1A3 (保留雨值小數) 
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我的线条如何？ 


= 27.22 

(a_U ) 2 

八 - 7 

= yJzi . 77/6 

I 

= 1.90 

综合4 上得： 

Y — bSx/Sy 
= -7.43 x 1 . 08 / 1.9 
= - 0.81 (保留兩值小數) 
也票人 = 5 ,则： 

y = 16.76 - 7 .43/： 

= 16.76 - 7.43 x 5 
= 9.61 




这就是说，在辐射钱下跬射 5 今钟后，我们期 f 阿梅淼上射怵够举起吨重量. 


求出 b 后，即可用 b 求 fl . 

« = y - bx 

= 8.9 + 7.43 x 5.5 
= 8.9 + 7.86 
= 16.76 

子是得出最佳批合钱 = 16.76 -7.43 X . 

相共系數 r 的计其式忌 r = bs ^/ s ^ 其中 Sx 和％糸文責 X 和变量 y 鲶标准差.在氺出后，遝需要氺心和％. 



=V7/6 
= 7.08 


2： (y - y ) 2 = ( 1 Z - 8 . 9) 2 + ( 10 - 8 . 9) 2 + ( 8 - 8 . 9) 2 + (9.5-8.9) 2 + (8-8. 9) 2 + (9 一8.9) 2 + (6-8. 9) 2 
= 3 . 1 2 + 1 . 1 2 + (-0.9) 2 + 0 . 6 2 + (-0.9) 2 + 0 . 1 2 + (- Z . 9) 2 
= 9.61 4- 1.21 + 0.81 + 0.36 4- 0.81 + 0.07 4 - 8.47 


y 


重量(吨) 
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要点 


要点 

■ 单变置数据仅涉及一个变量，二变量 
数据涉及两个变量。 

■ 散点图显示出二变量数据的模式。 

■ 相关性是变量之间的数学关系，但并 
不意味着一个变 量一定与另一 个变量 
相关。线性相关即两变量间为直线的 
相关关系。 

■ 正线性相关即 X 的低端值对应于 y 的低 
端值， X 的高端值对应于 y 的高 端值； 
负线性相关即 x 的低端值对应于 y 的高 
端值， x 的高端值对应于 y 的低端值。 
如果 x 和 y 的数值分布表现出随机模 
式，则它们不存在相关性。 

■ 与数据点拟合程度最高的线称为最佳 
拟合线。 

■ 线性回归法是一种求最佳拟合线 
y = a + bx 的数学方法。 


_误差平方和 SSE 的计算 式为： I ( y - y) 2 o 

■ 直线 y = a + bx 的斜率 b 的计算 式为： 

I ( x - x )( y - y ) 

b = _ 

Z ( x - x ) 2 

■ a 的计算 式为： 

a = y - bx 

■ 相关系数 f 是介于和 1 之间的一个 
数，描述的是数据与最佳拟合线的偏 
离距离。如果 r = -1 ,则为完全负线性 
相关；如果 r = 1,则为完全正线性相 
关；如果 r = 0, 则不存在相关性。 r 的 
计算 式为： 

bs, 

r =- 

Sy 
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我的线条如何？ 


爯见 



统 计邾感 谢您的光临 .r 

离别让人黯然神伤， 不过，看到你能学以致用，我们真是再高兴不过了。后文尚留 

有不少遗珠散玉等你拾取-些方便实用的概率表、一份需要通读的索引，此后, 

就该把所有这些新学问付诸实践了。我们渴望知道你的消息，所以请到 Head First 
图书馆网站 （ www . headfirstlabs.com ) 给我们写几句吧，让我们知道统计学为你 
做出的贡献！ 
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附录 1: 尾声 




+ 正文未及的十大拓展 



正文既已，余兴未尽。 

我们觉得还有一些内容是你需要知道的，对这些内容只字不提恐有不妥，不过，其 
实也只需要简 单地提 一提—— 我们诚挚地希望为你呈上一本厚薄适度的书，免得你 
为了捧起这本书学习还得先去健身中心练练臂力。因此，请先 通读一 遍这里的知识 
点， 再合上本书。 



点圜和茎叶图 

# 1. 数椐的其他表现形式 

我们在第一章讲过几种图形，这里再介绍两种有可能用到的图形。 




点图在图上以点表示各个数值，各个点在横轴上的相应数值上方堆叠 
成柱状，如下 所示： 

I 祟炎炙量数据. 

• • 匕 麩捤淤#狄. 


刺通边丸 看出 


每个值親显示志 一个占 你媒, 

上些点“趨“ 


0 1 2 3 4 5 

每月购买的游戏数屋 


茎吋搀 

茎叶图用于体现定量数据，通常在数据集非常小的时候使用。茎叶图显 
示出数据集中的每一个确切值，通过它能够轻易看出数据的形状。举例 
如下： 60 |0 


/这是根据軚据凾出 
稔笺叶 ( S . 

解图密钥： 10 | 6 = 16 


16 17 22 23 23 24 25 26 26 27 28 29 29 
30 31 31 32 32 33 34 34 35 36 37 37 38 
39 40 41 42 42 43 43 44 45 45 49 50 50 
50 51 55 58 60 



50 000 1 58 
40 0122334559 


30 0 1 1 22344567789 


,■ f 

这是你紿原始麩据. 


20 

10 


23345667899 
67 5 


左边的数值称为茎，右边的数值称为叶，在上面的茎叶图中，茎代表十 
位，叶代表个位。计算原始数据中的每个数值时，用每一片叶加上这片 


茎叶®的外形与直方 ID 相似, 
俚方向颠倒了 一下. 


叶的茎即可。例如这 一行: 


10 I 67 

它代表两个 数字： 16和17。16等于叶6加上茎10;类似地，17等于叶7加 
上茎10。 

通常会给出一个解图密钥帮你正确地理解茎叶图，此处的密钥为10 | 6 = 16。 
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正文未及的十大拓展 


分布割析 

有两条法则可以告 诉你： 大部分数据落在概率分布中的哪个区域。 

适用子正态分布的经验法则 

经验法则适用于符合正态分布的任何数据集。它 表明： 几乎所有的数据 
都位于距离均值三个标准差的范围内。具体 来说： 

% 大约68%的数值位于距离均值1个标准差的范 
围内。 

# 大约95%的数值位于距离均值2个标准差的范 
围内。 


# 大约99.7%的数值位于距离均值3个标准差的 
范围内。 

只要知道距离均值多少个标准差就可以大致了解概率情况。 


适用子任何分布的切比雪夫定理 

还有一个类似的定理，它适用于任意数据集，称为切比雪夫定理或切 
比雪夫不等式。它指出，对于任何 分布： 

# 至少75%的数值位于距离均值2个标准差的范围内 o 

# 至少89%的数值位于距离均值3个标准差的范围内。 

# 至少94%的数值位于距离均值4个标准差的范围内。 

切比雪夫定理不如经验法则精确，因为只给出了最小百分数，但这仍然能让你大 
致了解数值落在概率分布中的哪个区域。切比雪夫定理的优点是它适用于任何分 
布，而经验法则只适用于正态分布。 
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径_瓣. 娜 | 
区戚中呶现多 太也 俐淤 麩值. 
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进行试验 


实验可用于检验变量之间的因果关系。例如，通过实验可以检验不同剂量的鼾克对 
鼻鼾患者的治疗效果。 

进行实验时，对自变量进行控制，以便看出对因变量带来的影响。例如，你可能想 
检验不同剂量的鼾克对患者夜间打鼾时数产生的影响。鼾克的剂量为自变量，打鼾 
时数则为因变量。 

用于实验的对象称为实验单位，例中的实验单位为鼻鼾患者。 



一个好实验異备哪些特点？ 

设计实验时要记住三个基本 原则： 控制（对照）、随机和重复。和抽样一样，这 
样做的主要目的是让偏倚达到最小值。 


# 你需要对外部影晌或自然变异造成的结果进行控制。 

进行实验时，需要最小化那些不属于试验范围的影响因素。为此，我们首先要建立一个 控制组 ——中 
文中更常叫做对照组，在医学试验中则为一个不进行治疗或者仅仅采用自然疗法进行治疗的中性组。 
通过将治疗组的治疗效果和控制组（对照组）的治疗效果进行比较，就能评估治疗效果。 

安慰剂即为一种中性疗法，它对于因变量没有影响。有时候，实验对象对中性疗法的反应与对其不进 
行任何治疗的反应不一样，因此，为一个组提供安慰剂是控制这种影响结果的一种办法。如果服用安 
慰剂的组并不知道所服用的是安慰剂，则称为盲法，如果连提供治疗的人也不知道这是安慰剂，则称 
为双盲法。 

# 你需要格对象随机分配到采用不同疔法的治疔组中。 

下一页详细介绍这一点。 

# 你需要重复实验 

每一种治疗方法都需要在许多对象上进行实验。鼻鼾实验需要对多位鼻鼾患者应用治疗方法，而不是 
只对一位患者进行治疗，这样才能评估治疗效果。 

另一个要注意的问题是混杂因素。当一个实验的控制方法无法消除有可能对因变 
量造成影响的其他原因，实验就存在混杂因素。例如，假设你给男性服用鼾克， 

给女性服用安慰剂，当对这两个组的治疗结果进行比较时，就无法判断男性的治 
疗效果是由于药物而产生，还是由于男女两性的鼻鼾问题天生就存在差异。 
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正文未及的十大拓展 


实验 设计 

前面讲过，需要将实验对象随机分配到不同的实验组中。但如何分组最为妥当？ 


完全随机化设计 

完全随机化设计是一种可以选用的方法。使用这种方法时, 
你将治疗方法完全随机地分配给实验对象。如果我们打算做 
一个实验检验不同剂量的鼾克对患者的治疗效果，我们会随 
机地把鼻鼾患者分配给特定的治疗组。例如，我们会让一半 
的患者服用安慰剂，另一半患者则服用鼾克。 

完全随机化设计与简单随机抽样很相似。不同的是，这里不 
是随机选择一个样本，而是随机分配治疗方法。 


随机化 g 组设计 


另一个可以选用的方法随机化区组设计。这种方法将对象 
划分为多个相似的组，或者叫做块，例如，你可以将鼻鼾 
患者分为男性组和女性组，再在每一个组内部随机分配治疗 
方法——对于每一个性别组，可以给其中一半患者服用鼾克， 
给另一半患者服用安慰剂。这样做可以减小性别因素的影响， 
从而达到减小混杂因素的目的。 

随机化区组设计与分层随机抽样十分相似。不同的是，这里 
是将对象分为几个组，而不是将总体分为几个层。 

紀对设 it 

g 己对设计是随机化区组设计的一个特例，在只有两种治疗情 
况且可以将对象分为相似的对子时可以使用这种设计方法。 
例如，鼾克实验可以有两种治疗情况——服用安慰剂或服用 
鼾克，而患者可以按照年龄和性别划分为相似的对子。然后, 
你让对子中的一位服用安慰剂，另一位服用鼻鼾。例如，如 
果一个对子由两名 30 岁的男性组成，你就可以让其中一名服 
用安慰剂，让另外一名服用鼾克。 


安慰剂 

鼾克 

500 

500 


也票唷7,000个对象，我们 
可4让一洋人服用安慰剂， 
另一#人胲用射毛 • 



安慰拥 

IT 克 

男 

250 

250 

女 

250 

250 


T 


也票唷 5 00名男蚀和$00名女蚀, 
我们会给毐种蚀别的一 痒人菔 
用安慰剂.另一穿人服闲廯克. 



安慰刑 

鼾克 

男30岁 

1 

1 

男30岁 

1 

1 

女30岁 

1 

1 

女30岁 

1 

1 

— 




根据卑龄和蚀刹迸為 紀对还 可4消除函爲 
这 兩种® 潦 产法鲶混杂函|. 
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最小二乘回归法的其他公式 


# 4.最小二乘珍妇法的其他公式 

在第15章中讲过如何求最小二乘回归线的公式 y = a + bx , 其中： 

^ —这支 ®|]2 铁鹼斜車公式. 

Z(X - X)(y - y) 
b = - 

£(X - X ) 2 

这个公式还有一种表示方法一通过方差来表示，许多人觉得这种 
方法更便于记忆。 如果： 

^(y - W 


y 


a 


S 


2 


Z(x - x ) 2 


數值; c 蝣祥季 
方差 

则回归线斜率的公式可以另行表 示为: 


尸 y 2 

數值 y 軚楫蜂 
方差 


S- 


n - 


b 


一 间一个 竹龙式 不间汸 

Sxy 匕式进行象矛 •• 


S ： 


2 


类似地，可以改写相关系数的表示方法，将原来的相关系数计 算式： 


b s x 


改 写为： 


这是相劣系數 
始公式 • 



s xy 称为协方差，正如 X 的方差描述 X 的变异情况， y 的方差描述 y 的变异情 
况， x 和 y 的协方差量度的是 x 和 y 的总变异情况。 
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巧.决定系数 

决定系数以 r 2 或 R 2 表示，它是可以用 x 变量进行解释的 y 变量的变异百分数。 
例如，可以用决定系数指出露天音乐会的听众人数中有多大比例的变异可 
以由预计天晴时数进行解释。 



如果 r 2 = 0, 则无法从 x 值预测 y 值。 

如果 r 2 = l , 则可以从 x 值预测 y 值，且无误差。 

通常 r 2 介于这两个极值之间， r 2 越接近1,越能通过 x 预测 y ; 越接近0, r 2 越 
无法预测 y 。 

i\% r z 

有两种计算 r 2 的方法。第一种只需要取相关系数 r 的平方。 


.这只 是相矣系数的早方 


〜 MM 


另一种方法是将各个 y 值与其估计值的差距取平方，然后求和，再除以 y 值 
与 Y 的差距的平方的总和。 


r 2 


^( y - y ) 2 ^_ 

rrv - v ^ 2 


这似料 ik 齡料上面給括票 
相间.只炎竹其方汰不间而已. 


附录 I 尾声 649 



两个变量的非线性关系 


# 6.非线性兵系 


当两个变量存在关系时，这种关系不一定是线性的。下面是一些散点图实例, 



线性回归法假设两个变量之间的关系可以通过直线描述，因此对于这样的原 
始数据，运用最小二乘回归法无法很好地估计回归线的方程。 

不过，有一个办法可以解决这个问题。有时候可以通过对 X 和 y 进行转化，使 
结果接近线性。然后可以对转化结果运用线性回归法，求出 a 和 b 。 最大的困 
难在于努力将图形的非线性方程转化为以下 形式： 

y ' = a + bx ' 


其中 / 和/为 x 的函数。 

例如，你求得的最佳拟合线可能具有下列形式: 

y = l/(a + bx ) 


ot 果最佳 me 线为 
非线牲彬式，有时 
候冚以通过转換使 
貝成 为线牲彬式。 


这可以变 形为: 


现在符合 = a + 杉式了 
l/y = a + bx 使用钱性® 保注 • 


于是 y ’ = l / y ， 这就是说，你可以对直线 y ' = a + bx 运用最小二乘回归法，其中 〆 这^错得 炎忌 ^ 
y ’ = l / y 。 完成 y 值的转化后，就可以使用最小二乘回归法求出 a 和 b 的数值，然 ° 1 ' 


后再将结果代人原始方程。 
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正文未及的十大拓展 


# 7.矽归线斜率的 S 信区间 


前面的章节中已经讲过如何求得 P 和 a 2 的置信区间，对于回归线 
y = a + bx , 还可以求出其斜率的置信区间。 

b 的置信区间 如下： 

b ± (误差范围） 


可是误差范围是多少呢? 


b 的误差笵® 

误差范围计算 如下: 


误差范围= t ( v)x ( b 的标准差} 


其中 v = n -2, n 为样本的观察结果数目。为了求出 t ( v ) 的数值，可用 t 
分布概率表査找 v 和置信水平。 


b 的抽样分布的标准差计算 如下: 


这是 b 始抽禅今布 
的标准差. 

S b 

计算过程是，用 y 的观察值减去从回归线得出的 y 的估计值，所 
得的差进行平方，将所有的平方数加 起来； 然后除以 n -2; 取平 
方根； 再用所得结果除以 x 的观察值与7之差的平方之和。 





敢轾松 


参加统计学考试时， 
如果要用到 s b ，这 
个公式是会被给出的。 

也就是说你不用记住这个公 
式，只要会用就行了。 


雜用献4 兔 ㈣ 衫 

v = n - 2 

求出 b 的标准差还有别的用处。例如，还可以用于假设检验，检 
验一条回归线的斜率是否具有特定值。 


于是得出置信区 间为： 


A 


A 


(b - t(v) Sb, b + t(v) Sb) 
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其他类型的抽样分布 


邱.紬#分布一两个玲值之间的差异 

有时候，知道抽样分布的情况对于了解两个正态分布总体的均值之差十分有用， 
你可能想用这个差值构建一个置信区间或进行一个假设检验。例如，你可能想 
基于“两个正态分布的总体的均值相等”这一假设进行一个假设检验。 


iP ^ X ~ N (^ . a 2 ), Y ~ N(|x , a v 2 ), 其中 X 和 Y 相互独立，则 X - 7的分布的 
xx y y 

期望和方差的计算 式为： 


这炎 ㈣ ⑹-巧） 

E(X - Y) = Mx - M 厂 

_ _ a x 2 a y l_ vnrU-Y) = + var ^ ] 

Var(X - Y)= —— + —5 
n x n y 


如果已知总体方差 cr x 2 和 a 2 , 则 X - Y ’ 合正态分布 ，即: 




又-叫 M ， d 2 ) 


通过上式可以求出 X - Y 的置信区间。置信区间公式为(统计量）± (误差范围), 
因此在本例中，置信区 间为： 


c 值取决于置信区间所要求的置信水平: 



如果 a x 2 和 CTy 2 未知，则需要用 s x 2 和 s y 2 进行近似。如果样本很大，则仍然可 
以使用正态分布。如果样本很小，则需要使用 t 分布。 
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正文未及的十大拓展 


«9.紬#分布一两个 et 例之间的差异 

还有一个针对两个二项分布总体的比例差异的抽样分布，利用这个分布可以 
构建一个置信区间或进行一个假设检验。例如，你可能想基于“两个总体比 
例相等”这一假设进行一个假设检验。 


如果 X ~ B ( n , p ), Y ~ B ( n , p ), 其中 X 和 Y 相互独立，则分布 - P v 的期 
xx y y x y 

拥 in 七老 4 

= 6(Pj -日 



通过这个分布可以求出 P x - P v 的置信区间。置信区间等于(统计量）± (误差 

x y 

范围)，因此，在本例中，置信区 间为： 

,_ 这炎 朽 - Pa 婕 i 信区阑 

P x - P y ± cWar(P x - P y ) 〆 


C 值取决于置信区间所要求的置信水平， C 值与下一页的结果相同。 


3 


敢轾松 


参加统计学考试时，如果要用到两个均值或两个比例 
的抽样分布，是会给出抽样分布的方差的。 

也就是说你不用记住这个公式，只要会用就行了。 
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连续概率分布的期望与方差 

*10. 连续概率分布的 E ( X ) 和 Var(XJ 

在求离散概率分布的期望和方差时，我们使用下列 算式： 

E ( X ) = 2 xP(X = x ) 

Var ( X ) = Zx 2 P(X = x ) - E 2 ( X ) 


在概率分布为连续分布的时候，则通过面积求期望和方差。 


例如，假如你有一个连续概率分布，其概率密度函数 如下: 

f ( x ) = 0.05 0 s x s 20 



求 E ( X ) 



用 X 象廉豳數 
狎得 xfW . 


为了求出期望，我们需要求出概率分布范围内的曲线 xf ( x ) 下方的面积。实例 
中要求的是 x 在0至20范围内的图形 0.05 x 下方的面积。 
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通常，在整个 X 范围内，连续随机变量的期望和方差计算 如下: 


E(X) = Jxf(x)dx 


Var(X) = Jx 2 f(x)dx - E 2 (X)' 




刻撖积 兮. 

^ , 

[市场 營销鄯捎话：铖给《深入浅出微 

扭今》做个广告吗 -很快 就出版 •] 



黨要鱗计薰 

均勻穸布 


也票X符合均句今碲 ，则： 
fW = i/(b 一 a) 其中 « <x < b 


6(x) = (« + b)/2 
v«r(X) = (b — a) 2 /i2 
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附录 II : 统计表 


+ 快 k 查表+ 



缺少值得信賴的槪華表该怎么办？ 

仅仅了解概率分布是不够的，有时还需要在标准概率表中查找概率。这份附录给出 
了正态分布、 t 分布和 X 2 分布的概率表，可在其中尽情查找各种概率。 
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正态槪率表 


# 1. 标准正态分布表 


通过本表可求 P(z < Z ) 的概率，其中 Z ~ N ( 0 , 1 )。为了求出 
P ( Z < z ), 可查精确到 2 位小数的 z 值，然后读出概率即可。 


p (之 < z ). 


根掂第一列和第一行 
蚩出 2 值 . V 


•然 后从象中该出概率. 


BSTMBB!8HMBB!8HMBB!iBWBB!il^BBB!il^BBB!iHBBB!illBBB!iBBBB!ilBBI 



■ BPCTBI BPffBl BfW^B 
WB^iWSf^MMfj^MW^MM^MM^WM^UM^MM^MW^MWP^^ 


BBTMBIBHMI 

KSBI^I 


.0158 .0154 


I ^29 ^^31 E^l ES9 】 




IHEEHiES^li 


IB»SMBBf5MiBB?!!MBB?B3iBf!?HMI 


0764 .0749 .0735 .0721 










•3632 .3594 


































































































































































































*1 •标准 i £ 态分布表（续) 
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t 分布表 


n. t 分布临界值 


本表可查出 P(T > t ) = p 时的 t 值。 T 符合 t 分布， v 为自由度。查找 v 值和 p 值， 
然后读出 t 。 

-在 橥一列 中查找 V . . 在第一行1查找? 


IIE 3 IK 3 I Bill KB 
IDSIIES 9 I 


I IBS 1^31 ^^111^^9 


.05 


3.078 6.314 


.886 2.920 


1.638 2.353 


•533 2.132 


•476 2.015 


.943 


尾部 槪率 p j ) 

■ IBB EZSIEIQH33 ■ 


5.89 31.82 63.66 127.3 318.3 


.849 6.965 9.925 14.09 22.33 


3.482 4.541 5.841 7.453 10.21 


■ 關 

■画■画 園篇 




p(r>t) 




i_ 


mmmmmmMmwmi 


3.497 

4.025 

3.428 

3.930 

3.372 

3.852 

3.326 

3.787 

3.286 

3.733 

3.252 

3.686 


达后从象中读呶七鹼值- 




mmi 

mmi 

Eai 

mEBiiMiiBai 

KlE!IEBIEaiBEli 


»Jil 

m 

Dl 

m 


ii 


1 

•296 

1 

•292 

| 1.290 

n 

•282 


IB 

.684 

IB 

.676 

I 1.671 




■■画 


IK3IE3IKZ3IIZ3IHB I^S3I EEB KS3I US I 
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快来查表 


/临界值 

本表可査出 P(x > x ) = a 时的 X 值。 X 符合 X 2 分布，自由 
度为 V 。 查找 v 和 a 的值，即可读岀 X 。 



X 


在橥一 列查找 v 淤值…… ……在第一行查找 0 鲶值 





V 

.25 

.20 

.15 

•10 

•05 

.025 

.02 V 

.01 

.005 

.0025 

.001 

1 

1.32 

1.64 

2.07 

2.71 

3.84 

5.02 

5.41 

6.63 

7.88 

9.14 

10.83 

2 

2.77 

3.22 

3.79 

4.61 

5.99 

7.38 

7.82 

9.21 

10.60 

11.98 

13.82 

3 

4.11 

4.64 

5.32 

6.25 

7.81 

9.35 

9.84 

11.34 

12.84 

14.32 

16.27 

4 

5.39 

5.99 

6.74 

7.78 

9.49 

11.14 

11.67 

13.28 

14.86 

16.42 

18.47 

5 

6.63 

7.29 

8.12 

9.24 

11.07 

12.83 

13.39 

15.09 

16.75 

18.39 

20.51 

6 

7.84 

8.56 

9.45 

10.64 

12.59 

14.45 

15.03 

16.81 

18.55 

20.25 

22.46 

7 

9.04 

9.80 

10.75 

12.02 

14.07 

16.01 

16.62 

18.48 

20.28 

22.04 

24.32 

8 

10.22 

11.03 

12.03 

13.36 

15.51 

17.53 

18.17 

20.09 

21.95 

23.77 

26.12 

9 

11.39 

12.24 

13.29 

14.68 

16.92 

19.02 

19.68 

21.67 

23.59 

25.46 

27.88 

10 

12.55 

13.44 

14.53 

15.99 

18.31 

20.48 

21.16 

23.21 

25.19 

27.11 

29.59 

11 

13.70 

14.63 

15.77 

17.28 

19.68 

21.92 

22.62 

24.72 

26.76 

28.73 

31.26 

12 

14.85 

15.81 

16.99 

18.55 

21.03 

23.34 

24.05 

26.22 

28.30 

30.32 

32.91 

13 

15.98 

16.98 

18.20 

19.81 

22.36 

24.74 

25.47 

27.69 

29.82 

31.88 

34.53 

14 

17.12 

18.15 

19.41 

21.06 

23.68 

26.12 

26.87 

29.14 

31.32 

33.43 

36.12 

15 

18.25 

19.31 

20.60 

22.31 

25.00 

27.49 

28.26 

30.58 

32.80 

34.95 

37.70 

16 

19.37 

20.47 

21.79 

23.54 

26.30 

28.85 

29.63 

32.00 

34.27 

36.46 

39.25 

17 

20.49 

21.61 

22.98 

24.77 

27.59 

30.19 

31.00 

33.41 

35.72 

37.95 

40.79 

It 

21.60 

22.76 

24.16 

25.99 

28.87 

31.53 

32.35 

34.81 

37.16 

39.42 

42.31 

19 

22.72 

23.90 

25.33 

27.20 

30.14 

32.85 

33.69 

36.19 

38.58 

40.88 

43.82 

20 

23.83 

25.04 

26.50 

28.41 

31.41 

34.17 

35.02 

37.57 

40.00 

42.34 

45.31 

21 

24.93 

26.17 

27.66 

29.62 

32.67 

35.48 

36.34 

38.93 

41.40 

43.78 

46.80 

22 

26.04 

27.30 

28.82 

30.81 

33.92 

36.78 

37.66 

40.29 

42.80 

45.20 

48.27 

23 

27.14 

28.43 

29.98 

32.01 

35.17 

38.08 

38.97 

41.64 

44.18 

46.62 

49.73 

24 

28.24 

29.55 

31.13 

33.20 

36.42 

39.36 

40.27 

42.98 

45.56 

48.03 

51.18 

25 

29.34 

30.68 

32.28 

34.38 

37.65 

40.65 

41.57 

44.31 

46.93 

49.44 

52.62 

26 

30.43 

31.79 

33.43 

35.56 

38.89 

41.92 

42.86 

45.64 

48.29 

50.83 

54.05 

27 

31.53 

32.91 

34.57 

36.74 

40.11 

43.19 

44.14 

46.96 

49.64 

52.22 

55.48 

28 

32.62 

34.03 

35.71 

37.92 

41.34 

44.46 

45.42 

48.28 

50.99 

53.59 

56.89 

29 

33.71 

35.14 

36.85 

39.09 

42.56 

45.72 

46.69 

49.59 

52.34 

54.97 

58.30 

30 

34.80 

36.25 

37.99 

40.26 

43.77 

46.98 

47.96 

50.89 

53.67 

56.33 

59.70 

40 

45.62 

47.27 

49.24 

51.81 

55.76 

59.34 

60.44 

63.69 

66.77 

69.70 

73.40 

50 

56.33 

58.16 

60.35 

63.17 

67.50 

71.42 

72.61 

76.15 

79.49 

82.66 

86.66 

60 

66.98 

68.97 

71.34 

74.40 

79.08 

83.30 

84.58 

88.38 

91.95 

95.34 

99.61 

80 

88.13 

90.41 

93.11 

96.58 

101.9 

106.6 

108.1 

112.3 

116.3 

120.1 

124.8 

100 

109.1 

111.7 

114.7 

118.5 

124.3 

129.6 

131.1 

135.8 

140.2 

144.3 

149.4 


…达后从糸中 
读淑尺 • 
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索引命 


符吾 

I 符号 （ 参见条件概率） 

n 交集 

求解 159 

P(AHB> 与 P(A| B) 165 
P (黑 H 偶 > 167 
P (偶 > 167 
1/P ， 期望 281 

大的时候 407 
小的时候 407 
X 分布 （ 参见泊松分布） 

M ( 缪） 50,445 

confidence intervals ( 置信区间 ） 498 
v ( 纽） 573 

degrees of freedom (自由度） 574 
2( 西格玛 ） 49 

mean ( 均值 > 49 
o ( 西格玛 ） 107 
X 2 ( 卡方 ） 576 
X 2 ( 卡方） 分布 567-604 
cheat sheet ( 小抄） 584 
contingency table ( 列联表 ）587 
defined ( 定义 ）572 

degrees of freedom ( 自由度） 574, 576, 595 
calculating 591 ( 计算） 
generalizing ( 归纳） 596-597 
expected frequencies ( 期望频数） 587-588 
goodness of fit ( 拟合优度） 573. 579, 584 
independence ( 独立性） 573, 586 
main uses ( 主要用途 ）573 
significance ( 显著性 ）575 
v ( 纽） 573 

X 2 ( 卡方）假设检验步骤 576 
5C 2 ( 卡方）概率表 575 
X 2 ( 卡方）检验 571 


x ( x 拔） 445-447, 472-476 

distribution of ( 分布） 476—486 

A 

accurate linear correlation ( 精确线性相关） 630 
alternate hypothesis ( 备择假设） 529-530, 543 
average ( 平均值） 46-82 

mean ( 均值，参见 "mean") 
median ( 中位数，参见 “median") 
mode ( 众数，参见 "mode ") 

types of ( 类型 .) 71 

average distance ( 平均距离 ） 105 
interquartile range ( 四分位距） 105 



bar charts ( 条形图） 10-20, 23 
frequency scales ( 频数刻度 ） 13 
percentage scales ( 百分数刻度 ） 12 
scales ( 刻度） 23 

segmented bar chart ( 分段条形图 ） 14 
split-category bar chart ( 分立条形图 ） 14 
Bayes 5 Theorem ( 贝叶斯定理） 173, 178-179 
bias ( 偏倚） 423-426, 434, 438 

in sampling ( 抽样 .) 424-426, 438 

sources ( 来源） 425 
bimodal ( 双峰 ） 73 

binomial distribution ( 二项分布） 289, 324, 384, 
392-393, 544 

approximating ( 近似） 389, 398, 407 
approximating with normal distribution ( 近 *( 以正态、分 
布） 386 

approximating with Poisson distribution ( 近 *( 以泊松分 
布） 316-317 

central limit theorem ( 中心极限定理） 482 
binomial distribution (continued)( 二项分布 ( 续 ）） 
discrete ( 离散） 395 
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expectation and variance ( 期望与方差） 298, 301 
finding mean and variance ( 求均值与方差） 389 
guide ( 指南 ） 302 

versus normal distribution (. 与正态分布） 393, 395 

Binomial Distribution Up Close ( 二项分布细细看 ） 297 
binomial probabilities ( 二项分布概率 ） 384 
bivariate data ( 二变量数据） 608, 616, 640 
visualizing ( 图形化） 609 
blinding ( 盲法） 646 

box and whisker diagrams ( 箱线图） 100-102 
box plot ( 箱形图 ） 100 
Bullet Points ( 要点） 
bias ( 偏倚） 438 

binomial distribution ( 二项分布） 324 
bivariate data ( 二变量数据 ）640 
box and whisker diagram ( 箱线图 ） 102 
cluster sampling ( 整群抽样） 438 
continuity correction ( 连续性修正） 396 
continuous data ( 连续数据 ） 337 
continuous probability distributions ( 连续概率分布 ） 337 
correlation coefficient ( 相关系数 ） 640 
critical region ( 拒绝域） 539 
cumulative frequency ( 累积频数 ） 42 
discrete data ( 离散数据 ）337 
expectation and variance of X ( X 的期望和方差 ） 485 
expectation of random variable X ( 随机变量 X 的期望 ）224 
expectations ( 期望） 220, 233 
frequency density ( 频数密度 ） 30 
geometric distribution ( 几何分布） 324 
histograms ( 直方图 ）30 
hypothesis tests ( 假设检验 ） 539 
Type I error ( 第一类错误 ） 566 
Type II error ( 第一类错误 ） 566 
independent observations ( 独立观察结果） 378 
independent observations of X ( X 的独立观察结果 ） 233 
independent random variables ( 独立随机变量 ） 233 
interpercentile range ( 百分位距 ） 102 
interquartile range ( 四分位距 ） 97 
kth percentile ( 第 k 百分位数 ）102 
linear regression ( 线性回归 ）640 
linear transforms ( 线性变换） 220, 224, 233 
line of best fit ( 最佳拟合线 ）640 
negative linear correlation ( 负线性相关） 640 
normal distribution ( 正态分布） 359 
approximating ( 近似） 396 


normal probabilities ( 正态概率） 359 

one-tailed tests ( 单尾检验） 539 

p-value ( p 值） 539 

percentiles ( 百分位数） 102 

point estimator ( 点估计量） 447 

Poisson distribution ( 泊松分布） 324, 412 

population ( 总体） 438 

positive linear correlation ( 正线性相关） 640 

probability distributions ( 概率分布） 220, 224 

quartiles ( 四分位数） 97 

range (距 ） 97 

sample ( 样本） 438 

sampling distribution of means ( 均值的抽样分布） 485 
sampling distribution of proportions ( 比例的抽样分布） 466 
scatter diagrams ( 散点图） 640 
significance level ( 显著性水平 ） 539 
simple random sampling ( 简单随机抽样） 438 
standard deviation ( 标准差） 122, 220 
a 224 

standard error of proportion ( 比例标准误差） 466 

standard error of the mean ( 均值标准误差） 485 

standard scores ( 标准分） 122 

stratified sampling ( 分层抽样） 438 

sum of squared errors ( 误差平方和） 640 

systematic sampling ( 系统抽样） 438 

test statistic ( 检验统计量） 539 

two-tailed tests ( 双尾检验） 539 

univariate data ( 单变量数据） 640 

upper and lower bounds ( 上界和下界 ） 97 

variance of random variable X ( 随机变量 X 的方差 ） 224 

variances ( 方差 ) 122, 220, 233 

z-scores ( z 分） 122 

X 2 distribution ( x 2 分布） 598 

goodness of fit test ( 拟合优度） 598 
test for independence ( 检验独立性） 598 



categorical data ( 类别数据） 18, 73 
mean ( 均值 ） 62 
median ( 中位数 ）62 

categories versus numbers ( 类别与数字） 18-23 
causation versus correlation ( 因果与相关 ） 614 
census ( 普查 ） 418 

central limit theorem ( 中心极限定理 ) 481-482, 485 
binomial distribution ( 二项分布 ） 482 
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Poisson distribution ( 泊松分布 ）482 
central tendency ( 集中趋势） 45-82 
charts and graphs ( 图表 ） 4 

bar charts ( 条形图） 10-20, 23 
bar chart scales ( 条形图刻度 ） 23 
choosing right one ( 做出正确选择） 39-40 
comparing ( 比较 ） 6 
cumulative frequency ( 累积频数 ） 35, 42 
failure ( 遇挫 ）9 
frequency ( 频数） 8-9, 23 
frequency scales ( 频数刻度） 13 
histograms (直方图，参见 “histograms") 
horizontal bar charts ( 水平条形图） 11, 23 
line charts ( 线形图） 41, 42 
multiple sets of data ( 多批数据） 14, 23 
numerical data ( 数字数据 ） 23 
percentage sales ( 百分数刻度 ） 12 
pie charts ( 饼图） 8-9, 9, 23 
proportions ( 比例 ） 9 
scales ( 刻度 ） 12 

segmented bar chart ( 分段条形图 ）14 
software ( 软件 ） 6 

split-category bar chart ( 分立条形图 ）14 
vertical bar charts ( 垂直条形图） 10-11, 23 
Chebyshev’ s inequality ( 切比雪夫不等式 ）645 
chi square <x 2 )( 卡方《 X 2 ) ) 576 
chi square (x 2 ) distribution ( 卡方 (x 2 ) 分布） 567-604 
cheat sheet ( 小抄 ） 584 
contingency table ( 列联表 ） 587 
defined ( 定义 ） 572 

degrees of freedom ( 自由度） 574, 576, 595 
calculating ( 计算 ）591 
generalizing ( 归纳） 596-597 
expected frequencies ( 期望频数） 587-588 
goodness of fit ( 拟合优度） 573, 579, 584 
independence ( 独立性） 573, 586 
main uses ( 主要用途 ） 573 
significance ( 显著性 ）575 
v ( 纽 ）573 

chi square (x 2 ) hypothesis testing steps ( 卡方 (x 2 ) 假设检验 
步骤 ）576 

chi square (x 2 ) probability tables ( 卡方 (x 2 ) 概率表 ）575 
chi square (x 2 ) test ( 卡方 (x 2 ) 检验 ）571 
clustered sampling ( 整群抽样 ） 434 


cluster sampling ( 整群抽样） 433-434, 436, 438 
coefficient of determination ( 决定系数） 649 

combinations ( 组合，参见 "permutations and 
combinations") 

combined weigh ( 综合体重） 
continuous ( 连续） 365 
distributed ( 分布 ） 367 
distributed normally ( 正态分布 ） 365 
complementary event ( 对立事件 ） 136 

completely randomized design (experiments )( 完全随机化 
设计 ）647 

conditional probabilities ( 条件概率） 157 - 160 
Bayes’ Theorem ( 贝叶斯定理 ） 173 
P(AHB ) 与 P(A|B) 165 
P (黑 I 偶 > 170 

probability tree ( 概 率树） 158-161 
confidence intervals ( 置信区间） 487-520, 539 
cheat sheet ( 小抄） 504 
confidence level changes ( 置信水平改变 ） 518 
four steps for finding ( 求解置信区间四步骤） 491-502 
Step 1: Choose your population statistic ( 第 1 步 : 

选择总体统计量） 492,508 
Step 2: Find its sampling distribution ( 第 2 步： 求出 
其抽样 分布） 492,509 

Step 3: Decide on the level of confidence ( 第 3 步 : 

决定置信水平） 494,512 
Step 4: Find the confidence limits ( 第 4 步： 求出置 
信上下限） 496-501, 513 
introducing ( 认识置信区间 ） 490 
point estimators ( 点估计量 ）493 
selecting appropriate confidence level ( 选择合适的置 
信区间） 495 

size of sample changes ( 改变样本大小） 518 
confidence intervals (continued)( 置信区间（续 }) 
slope of regression line ( 回归线斜率 ） 651 
summary ( 总结） 503 
t-distributions (t 分布） 509-515 
probability tables ( 概 率表） 513 
shortcuts ( 简明表示 ） 515 
small sample ( 小样本） 510 
standard score ( 标准分） 511 
versus confidence level ( 关于置信水平 ） 507 
confidence level versus confidence interval ( 置信水平与 
置信区间 ）507 

confidence limits ( 置信上下限） 496, 502, 513 
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confounding ( 混杂因素） 646 
contingency table ( 列联表） 587 
continuity correction ( 连续性修正） 395-398, 412 
Continuity Corrections Up Close ( 连续性修正细细看） 397 
continuous data ( 连续数据） 327, 337, 365 
frequency ( 频数） 328 
probability distribution ( 概率分布） 329-333 
range of values ( 数值范围） 333 
versus discrete data ( 关于离散数据） 366 
continuous probabilities ( 连续概率） 333 
continuous probability distributions ( 连续概率分布） 337 
E<X> 和 Var(X> 654-655 

continuous random variables ( 连续随机变量 ）331 
continuous scale versus discrete probability 
distribution ( 连续刻度与离散概率分布 ）395 
control group ( 控制组 （ 对照组 ）） 646 
controls ( 控制 （ 对照 ）） 646 
correlation and regression ( 相关与回归） 605-642 
accurate linear correlation ( 精确线性相关 ）630 
bivariate data ( 二变量数据） 608, 616, 640 
visualizing ( 图形化 ）609 
correlation coefficient ( 相关系数） 630-634, 640 
correlation versus causation ( 相关与因果） 614 
dependent variable ( 因变量 ）608 
explanatory variable ( 解释变量 ）608 
independent variable ( 自变量 ）608 
least squares regression ( 最小二乘回归 ）626 
linear regression ( 线性回归） 626, 640 
line of best fit ( 最佳拟合线 ） 618, 624, 640 
finding equation ( 求公式 ） 622 
finding slope ( 求斜率） 623-624 
sum of squared errors ( 误差平方和） 620-621 
negative linear correlation ( 负线性相关） 613, 631, 640 
no correlation ( 不相关） 613, 631 
no linear correlation ( 非线性相关 ） 630 
outliers ( 异常值） 634 

perfect negative linear correlation ( 完全负线性相关） 631 

perfect positive linear correlation ( 完全正线性相关 ） 631 

positive linear correlation ( 负线性相关） 613, 631, 640 

regression line ( 回归线） 626 

response variable ( 反应变量） 608 

scatter diagrams ( 散点图 ) 609, 612, 616, 618, 640 

scatter plots ( 散点图） 609 

sum of squared errors ( 误差平方和） 640 


univariate data ( 单变量数据） 608, 640 
correlation coefficient ( 相关系数） 631-634, 640 
formula ( 公式 ） 632 

least square regression ( 最小二乘回归 ） 648 
critical region ( 拒绝域） 531-534, 539, 548 
Critical Regions Up Close ( 拒绝域细细看 ） 534 
critical value ( 临界值 ） 532 
cumulative frequency ( 累积频数） 34-38, 42 
graph ( 图 ）35 



data ( 数据） 

categorical and numerical data ( 类别数据与数字数据 ） 18 
categorical data ( 类别数据 ） 18 
grouped ( 分组 ） 19 
multiple sets of data ( 多批数据 ） 14 
numerical data ( 数字数据） 18 
qualitative data ( 定性数据 ） 18 
deciles ( 十分位数） 98 
degrees of freedom ( 自由度） 574, 576, 595 
calculating ( 计算） 591 
generalizing ( 归纳） 596-597 
number of ( 数量） 510 
dependent events ( 独立事件） 181, 189-190 
dependent variables (experiments)( 因变量） 608, 646 
discrete data ( 离散 数据） 329, 337, 370 

versus continuous data (. 与连续数据） 326-327, 

366 

discrete probability distributions ( 离散概率分布） 

197-240 

expectation ( 期望） 204-208 

linear transforms ( 线性变换） 233 
expectations ( 期望） 219 
independent observations ( 独立观察结果） 224, 
225-226 

linear relationship between E(X) and E(Y) ( E(X> 和 E(Y) 
之间的线性关系） 217-218 
linear transforms ( 线性变换） 219, 225-226 
expectation and variance ( 期望和方差） 233 
linear transforms versus playing multiple games ( 线性 
变换与多局赌博 ） 221 
observation ( 观察值） 222-224 
observation shortcuts ( 观察值速算法） 223 
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Pool Puzzle ( 奇妙池） 215-216 
random variables ( 随机变量） 
adding ( 增加） 230 
independent ( 独立） 233 
subtracting ( 减小） 231 
shortcut or formula ( 简便算法或公式） 236 
variance ( 方差） 205-208, 219 

linear transforms ( 线性变换） 233 
versus continuous scale (. 与连续刻度） 395 

discrete random variables ( 离散随机变量 ） 202 
distribution ( 分布） 

anatomy ( 剖析） 645 
mean ( 均值 ） 56 
ofX + Y(X + Y") 370 
dotplots ( 点图） 644 
double blinding ( 双盲法） 646 
drawing lots ( 抽签） 431, 434 



E(X) and Var(X) for continuous probability distributions (连 
续概率分布的 E(X) 和 Var(X) ) 654-655 

empirical rule for normal distribution ( 正态分布经验法则） 
645 

estimating populations and samples ( 左、体和样本的估 i 十） 
441-486 

central limit theorem ( 中心极限定理） 481-482, 485 
binomial distribution ( 二项分布） 482 
Poisson distribution ( 泊松分布） 482 
distribution of P s ( P s 分布） 464-466 
expectation of P s ( 卩 5 的期望） 462 
formulas ( 公式 ） 451 

point estimators ( 点估计量） 443-447, 452 

for population variance ( 总体方差的 .) 457 

sampling distributions ( 抽样分布） 485 
population mean ( 总体均值） 443, 446 
population parameters ( 总体参数） 444 
population proportion ( 总体比例） 454-457 
population variance ( 总体方差） 448-450 
probabilities for a sample ( 样本概率） 459 
proportions, sampling distribution of ( 比例，抽样分布） 460 
sample mean ( 样本均值） 445, 446 
sample variance ( 样本方差） 449, 452 
sampling distribution ( 抽样分布） 466 
continuity correction ( 连续性修正） 469 
of proportions ( 比例 .) 460 


sampling distribution of means ( 均值的抽样分布） 
471-479 

distribution of x ( X 的分布） 480 
expectation for X ( X 的期望） 474-475 
variance of X ( X 的方差） 476 
standard error ( 标准误差） 485 

of mean ( 均值 .) 479 

of proportion ( 比例 .) 466 

variance of Ps ( Ps 的方差） 463 
x bar ( x 拔 ） 445 
M 445 

events ( 事件） 132 

complementary ( 对立） 136 
dependent ( 独立 ） 181 
exclusive ( 互斥） 147-154 

versus exhaustive ( 穷举） 150 
independent ( 独立） 182-184 

versus dependent ( … 与独立） 189-190 
intersecting ( 相交） 147-154 
mutually exclusive ( 互斥） 147, 150 
exclusive events ( 互斥事件） 147-154, 150 
exhaustive ( 穷举） 149 
exhaustive events ( 穷举事件） 150 
expectations ( 期望） 204-208, 219, 220, 367 
1/p 281 

binomial distribution ( 二项分布） 298 
expectations (continued)( 期望 ( 续 ）） 

geometric distribution ( 几何分布） 280-281 
independent observations ( 独立观察结果） 378 
linear transforms ( 线性变换） 233 
Poisson distribution ( 泊松分布） 308 
two games ( 两局赌局） 222-224 
experimental units ( 实验单位） 646 
experiments ( 实验 ） 646 
designing ( 设计 ） 647 
explanatory variable ( 解释变量） 608 



factorials ( 阶乘） 246, 248 

Fireside Chats, Dependent and Independent discuss 
their differences ( 面 对面： 相关与独立差异谈） 
186-187 

Five Minute Mystery ( 五分钟推理） 
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Case of the Broken Cookies ( 破碎的饼干 ） 315 
Solved ( 破解） 318 

Case of the High Sunscreen Sales ( 防哂霜销量案 ） 611 
Solved ( 破解） 615 

Case of the Lost Coffee Sales ( 消失的咖啡销量 ） 421 
Solved ( 破解） 429 

Case of the Missing Parameters ( 缺失参数案件） 357 
Solved ( 破解） 358 

Case of the Moving Expectation ( 活动期望案例 ） 211 
Solved ( 破解） 220 

The Case of the Ambiguous Average ( 案例： 含含糊糊 
的平均值 ） 51 ' 

Solved ( 破解 ） 81 

The Case of the Two Classes ( 瑜伽班与游泳班案例 ） 185 
Solved ( 破解） 188 

formulas for arrangements ( 排位方式的计算公式） 248 
frequencies ( 频数） 8, 23, 67-68, 73 
comparing ( 比较） 14 
continuous data ( 连续数据） 328 
cumulative frequency ( 累积频数） 34-38, 42 
highest frequency group of values ( 具有最高频数的类） 
52 

histograms ( 直方图） 24-30 

percentages with no frequencies ( 无频数百分数） 12 
frequency density ( 频数密度） 27-32, 68 
Frequency Density Up Close ( 频数密度细细看 ） 29 
frequency scales ( 频数刻度 ） 13 



Gaussian distribution ( 高斯分布） 352 

geometric distribution ( 几何分布） 277-287, 297, 301, 
324 

guide ( 指南 ） 284 

inequalities ( 不等式） 279 

pattern of expectations ( 期望模式） 280-281 

variance ( 方差） 281-284 

Geometric Distribution Up Close ( 几何分布细细看） 278 
goodness of fit ( 拟合优度） 573 
test ( 检验） 579 

graphs ( 图形， 参见： charts and graphs ) 
grouped data ( 分组数据） 19 



height probabilities ( 身高概率） 338-341 
histograms ( 直 方图） 19-28 
frequency ( 频数） 24-30, 25 
intervals ( 区间 ） 20 
making ( 使得 ） 20 

making area proportional to frequency ( 使面积与频 
数成比例） 26-28 . 

mean ( 均值 ） 56 

unequal intervals ( 不等宽区间） 24-30 
when not to use ( 何时不用） 33 
horizontal bar charts ( 水平条形图） 11, 23 
horse racing ( 赛马） 243-246 
hypothesis tests ( 假设检验） 521-566 

alternate hypothesis ( 备择假设） 529-530, 543 
critical region ( 拒绝域） 531-534, 539, 548 
critical value ( 临界值） 532 
null hypothesis ( 原假设） 528, 543 
one-tailed tests ( 单尾检验） 534, 539 
p-value ( p 值） 539 

power of a hypothesis test ( 假设检验的功效 ） 561 
process ( 过程） 526-539 
overview ( 总览） 527 

Step 1: Decide on the hypothesis (第 1 步: 确定要 
进行检验的假设） 528-529, 543 
Step 2: Choose the test statistic ( 第 2 步： 选择检验 
统计量） 531, 544 

Step 3: Determine the critical region ( 第 3 步： 确定 
用于做决策的拒绝域） 532,548 
Step 4: Find the p-value ( 第 4 步： 求检验统计量的 
p 值） 535-536 

Step 5: Is the sample result in the critical region?( 
第 5 步： 查看样本结果是否处于拒绝域内 ） 537 
Step 6: Make your decision ( 第 6 步 : 做出决策） 

537 

significance level ( 显著性水平） 533, 538, 539 
statistically significant ( 统计显著性 ） 551 
test statistic ( 检验统计量） 531, 539, 544, 547 
two-tailed tests ( 双尾检验） 534, 539 
Type I error ( 第一类错误） 555-560, 566 
Type II error ( 第二类错误） 555-560, 566 
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incorrect sampling unit ( 抽样单位不正确 ）425 



independence ( 独立性） 573 
independent events ( 独立事件） 182-183, 189-190 
versus mutually exclusive ( 互斥） 183 

independent observations ( 独立观察结果） 224-226, 
377, 472 

expectation ( 期望） 378 
ofX(X 的…… ) 233 
variance ( 方差） 378 

versus linear transforms (. 与线性变换） 376-378 

independent random variables ( 独立随机变量） 230-233, 
368 

indpendent variables ( 独立变量） 608, 646 
information ( 信息） 

versus data (. 与数据） 5 

visualizing ( 图形 it, 参见： visualizing information ) 
interpercentile range ( 百分位距 ） 98, 102 
interquartile range ( 四分位距） 92-93, 97 
average distance ( 平均 距离） 105 

versus the median (. 与中位数） 97 

intersecting events ( 相交事件） 147-154 
intersection ( 交集） 149-154 

K 

kth percentile ( 第 k 百分位数 ） 99, 102 



Law of Total Probability ( 全概率公式） 172, 178 
least squares regression ( 最小二乘回归法） 626, 648 

Least Squares Regression Up Close ( 最小二乘回归法细细 
看 ） 626 

leaves ( 叶） 644 

left-skewed data ( 左偏斜数据 ） 62, 64 

letters, using to represent numbers ( 用字母表示数字） 
48-49 

linear correlations ( 线性相关） 613, 630-631 
Linear Correlations Up Close ( 线性相关细细看） 613 
linear regression ( 线性回归） 626, 640, 650 

linear relationship between E(X) and E(Y) ( E(X) 与 E(Y) 之间 
的线性关系） 217-218 

linear transforms ( 线性变换） 219, 220, 224-226 


distribution ( 分布） 376 

expectation and variance ( 期望与方差 ） 233 

versus independent observations (. 与独立观察结 

果） 376-378 

versus playing multiple games (. 与多玩几局赌博 

游戏 ）221 

line charts ( 线形图） 41, 42 
Line Charts Up Close ( 线形图细细看 ） 41 
line of best fit ( 最佳拟合线 ） 618, 622, 640 
finding equation ( 求公式） 622 
finding slope ( 求斜率） 623-624 
minimizing errors ( 误差最小化） 620-621 
non-linear ( 非线性） 650 
sum of squared errors ( 误差平方和） 620-621 
lower bounds ( 下界） 86, 97 

basketball scores ( 篮球赛得分 ）88 
lower quartile ( 下四分位数 ）92 
finding (求 .）94 

M 

matched pairs design (experiments )( 配对设计） 647 
mean ( 均值） 47-60 

basketball scores ( 篮球赛得分 ）88 
binomial distribution ( 二项分布） 389 
calculating ( 计算） 50 
calculating when to use ( 计算何时使用 ） 78 
mean (continued)( 均值（续 ）） 
categorical data ( 类别数据 ）62 
distributions ( 分布） 56 
frequencies ( 频数 ） 52 
frequency density ( 频数密度 ） 68 
histograms ( 直方图） 56 
of two middle numbers ( 两个中间数 ）61 
outliers ( 异常值） 57-59 
positive and negative distances ( 正负距离） 105 
problems with ( 问题） 65-72 
skewed data ( 偏斜数据） 62, 64 
standard deviations from ( 标准差 ） 121 
using letters to represent numbers ( 用字母表示数 
字） 48-49 

versus median (. 与中位数） 62 

X + Y 368 
M ( 缪 ） 50 
2( 西格玛 ） 49 
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measuring probability ( 量度概率） 132 
median ( 中位数） 61-70 

calculating when to use ( 计算何时使用 ）78 
categorical data ( 类别数据 ）62 
frequency density ( 频数密度 ） 68 
in three steps ( 三步法 ） 62 
middle quartile ( 中间的四分位数 ）92 
problems with ( 问题） 65-72 
skewed data ( 偏斜数据 ） 64 
versus mean ( 均值 ） 62 

versus the interquartile range (. 与四分位距 ）97 

middle quartile ( 中间的四分位数 ）92 
modal class ( 众数组 ）73 
mode ( 众数） 73-80 

calculating when to use ( 计算何时使用 ）78 
categorical data ( 类别数据 ）73 
three steps for finding ( 求 … 三步法 ） 74 
mu ( 参见 ： m ( 缪 ）） 
multiple sets of data ( 多批数据） 14, 23 
mutually exclusive events ( 互斥事件） 147, 150 

N 

n! 248 

negative linear correlation ( 负线性相关） 613, 631,640 
no correlation ( 不相关） 613, 631 
No Dumb Questions ( 世上没有傻问题） 
adding probabilities ( 概率 相加 ） 143 
alternate hypothesis ( 备择假设 ） 530 
approximating binomial distribution ( 近似二项分布） 
398 

arranging objects in circle ( 对象环形排列） 248 
average distance ( 平均距离） 

interquartile range ( 四分位距 ） 105 
Bayes’ Theorem ( 贝叶斯定理 ） 179 
bias ( 偏倚） 426, 434 
binomial distribution ( 二项分布） 301,412 
bivariate data ( 二变量数据） 616 
box and whisker diagram ( 箱线图 ） 101 
breaking data into more than four pieces ( 将数据分割 
为四块以上 ）97 

central limit theorem ( 中心极限定理） 485 
charts ( 图表 ） 5 

clustered sampling ( 整群抽样 ）434 


confidence intervals ( 置信区间） 491, 518, 539 
confidence interval versus confidence level ( 置信区间 
与置信水平 ） 507 

continuity corrections ( 连续性修正） 398, 412 
continuous data ( 连续数据） 370 
continuous distributions ( 连续分布） 352 
correlation coefficient ( 相关系数） 634 
cumulative frequency ( 累积频数） 36 
degrees of freedom ( 自由度） 576, 595 
discrete data ( 离散数据） 370 
discrete random variable ( 离散随机数据） 203 
distribution of X + Y ( X+Y 的分布） 370 
drawing lots ( 抽签） 434 
E(X } + X 2 ) and E(2X) ( E(X1 + X2> 与 E(2X> ) 224 
expectation ( 期望） 208, 219 
factorials ( 阶乘） 248 
frequency density ( 频数密度） 30 
Gaussian distribution ( 高斯分布） 352 
geometric distribution ( 几何分布） 277, 284, 301 
histograms ( 直方图） 23, 30 
how data is spread out ( 数据分散方式 ） 97 
hypothesis tests ( 假设检验） 530, 552 
independent events ( 独立事件） 184 
independent observations ( 独立观察结果） 378 
independent versus mutually exclusive ( 独立与互斥 ） 184 
information versus data ( 信息与数据 ）5 
interquartile range ( 四分位距） 97 
limit on intersecting events ( 相交事件） 154 
linear transforms ( 线性变换） 219, 378 
line charts ( 线形图 ） 42 
line of best fit ( 最佳拟合线） 624 
mean or median with categorical data ( 类另 1 J 数据的均 
值或中位数 ） 62 

mean with skewed data ( 有偏斜数据的均值 ） 62 
median ( 中位数 ）352 

versus mean (. 与均值） 62 

versus the interquartile range (. 与四分位距 ）97 

n! 248 

normal distribution ( 正态分布） 

accuracy of (. 的精确性） 398 

approximating binomial or Poisson distribution (近 
似二项分布或泊松分布 ）412 
normal probability tables ( 正态概率表 ）352 
null hypothesis ( 原假设） 530 
outliers ( 异常值） 634 
P(Black I Even) (P (黑 | 偶 ））179 
permutations and combinations ( 排列与组合） 263 
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arranging by type ( 按种类排列 ） 257 
point estimators ( 点估计量） 446, 452 

and sampling distributions ( 与抽样分布） 485 
Poisson distributions ( 泊松分布） 311, 314, 412 
approximating binomial distribution ( ifr (以二项分 
布） 317,398 

population mean ( 总体均值） 446 

positive and negative distances (IE 负 5 巨离） 105 

probabilities written as fractions, decimals, or 

percentages ( 以分数、小数表示概率或百分数） 
139 

probability ( 概率） 139 

best method ( 最佳方法） 143 
probability density function ( 概率密度函数） 334 
probability distributions ( 概率分布） 203 
letters p and q ( 字母 p 和 q ) 284 
quiz show ( 智力游 i 节目） 290 
probability for standardized range ( 标准化数值范围的 
概率 ） 347 

probability of range ( 数值范围概率） 352 
probability tables ( 概率表） 352, 370 
probability trees ( 概率树） 165, 179 
proportion versus probability ( 比例与概率） 456 
questionnaires ( 调查问卷 ）426 
random variables ( 随机变量 ）233 
right- and left-skewed data ( 左右偏斜数据 ）62 
roulette wheel ( 轮盘赌 ） 184 
sample mean ( 样本均值） 446 
sample variance ( 样本方差） 452 
sampling bias ( 抽样偏倚 ） 434 
sampling distribution ( 抽样分布） 466 
sampling frame ( 抽样框架） 426 
scatter diagrams ( 散点图 ） 616 
set theory ( 集合论 ） 139 
shortcuts ( 简捷算法 ） 370 
significance level ( 显著性水平 ） 539 
significance tests ( 显著性检验 ） 552 
slot machines ( 老虎机 ） 208 
standard deviation ( 标准差） 113, 122, 208 
standard error ( 标准误差） 485 
of proportion ( 比例） 466 
standard scores ( 标准分） 122, 347, 352 
outliers ( 异常值 ）122 
statistical sampling ( 统计抽样） 
bias ( 偏倚 ） 426 

clustered sampling ( 整群抽样） 434 

drawing lots ( 抽签） 434 

increasing sample size ( 增大样本） 434 


simple random sampling ( 简单随机抽样 ） 434 
stratified sampling ( 分层抽样 ） 434 
stratified sampling ( 分层抽样 ） 434 
systematic sampling ( 系统抽样 ） 434 
t-distributions (t 分布） 518 
target population ( 目标总体 ） 426 
Type I error ( 第一类错误 ） 560 
Type II error ( 第二类错误 ） 560 
variance ( 方差） 122, 208 
variance equations ( 方差公式 ） 113 
variances ( 方差 ）219 
Venn diagrams ( 维恩图） 139, 165, 184 
X 2 (chi square) distribution ( x 2 ( 卡方）分布） 595 
X 2 (chi square) tests { % 2 ( 卡方）分布） 576 
no linear correlation ( 非线形相关 ） 630 
non-linear relationships ( 非线性关系 ） 650 
normal approximation ( 正态近 4 以） 394 
normal distribution ( 正态分布） 325-360, 361-414 
accuracy of ( 精确性） 398 

approximating continuity correction ( ifr ( 以连续性修正） 

396 

approximating binomial distribution ( 近 { 以二项分布） 
386 

approximating binomial or Poisson distribution ( 近似 
二项分布或泊松分布 ） 412 
approximating binomial probabilities ( 近 ^( 以二项概率） 

397 

binomial distribution ( 二项分布） 384, 389, 392-393 
approximating ( 近似） 398, 407 
continuous ( 连续） 395 
continuous data ( 连续数据） 337, 365 
continuous distributions ( 连续分布） 352 
continuous probability distributions ( 连续概率分布） 
337 

defined (定义） 339-340 
discrete data ( 离散数据） 337 
discrete data versus continuous data ( 离散数据与连 
续数据） 326-327 
empirical rule ( 经验法则） 645 
finding < probabilities ( < 型概率的求解） 397 
finding > probabilities ( 彡型概率的求解） 397 
finding between probabilities ( " 介于 " 型概率的求解） 
397 

frequency and continuous data ( 频数与连续数据） 328 
Gaussian distribution ( 高斯分布） 352 
height probabilities ( 身高概率） 338-341 
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in place of binomial distribution ( 代替二项分布 ） 389 

median ( 中位数） 352 

normal probability tables ( 正态分布表 ） 352 

Poisson distribution ( 泊松分布） 386, 406 

Pool Puzzle ( 奇妙池） 399-400 

probability = area ( 概率 = 面积 ） 331 

probability density function ( 概率密度函数） 

330-337, 337 

probability for standardized range ( 标准化数值范围的 
概率 ） 347 

probability of range ( 标准化数值范围 ） 352 
probability tables ( 概率表） 349-352 
standard score ( 标准分） 345-347, 352 
table ( 表格 ） 411 
transforming ( 变换） 345 

versus binomial distribution (. 与二项分布） 393, 

395 

versus t-distributions (. 与 t 分布） 515 

Normal Distribution Exposed ( 正态分布访谈） 404 
normal probabilities ( 正态概率） 359 
calculating ( 计算） 341-352 

determining distribution ( 确定分布） 343 
standardizing normal variables ( 正态变置标准化） 
344 

tables ( 表格） 349-352, 352, 658-659 
nu ( 参见 v ( 正态变量 ）） 
null hypothesis ( 原假设） 528, 530, 543 

numbers, using letters to represent ( 数字，用字母表示） 
48-49 

numerical data ( 数字数据 ) 18, 23 



observations ( 观察） 222-224 
independent ( 独立 ） 224 
shortcuts ( 速算法 ）223 
one-tailed tests ( 单尾检验） 534, 539 
outliers ( 异常值） 57-59, 89-91, 93, 634 
interquartile range ( 四分位距 ）93 
standard scores ( 标准分 ）122 



p-value ( p 值） 535-536, 539 
percentage sales ( 百分数刻度 ） 12 


percentages with no frequencies ( 无频数百分数 ） 12 
percentiles ( 百分位数） 98-99, 102 

kth percentile ( 第 k 百分位数 ） 99, 102 
perfect negative linear correlation ( 完全负线性相关 ） 631 
perfect positive linear correlation ( 完全正线性相关 ） 631 
permutations and combinations ( 排列与组合） 241-268 
arrangements ( 排位） 246 
arranging by type ( 按种类排列） 252-257 
arranging duplicates ( 重复排列 ） 254 
arranging objects in circle ( 圆形排位） 247-248 
combinations ( 组合） 260-263, 293 
examining combinations ( 何为组合） 260-263 
examining permutations ( 何为排列） 258-259 
factorial ( 阶乘） 246 

formulas for arrangements ( 排位方式的计算公式 ） 248 
permutations versus combinations ( 排列与组合比较 ） 261 
three-horse race ( 三马赛） 243-246 
pie charts ( 饼图） 8-9, 9, 23 
placebo ( 安慰剂） 646 

point estimators ( 点估 计量） 443-447, 452, 493, 519 
and sampling distributions ( 抽样分布） 485 
for population variance ( 总体方差 ） 457 
problem with ( 问题） 489 
Poisson distribution ( 泊松分布） 306-319, 324, 386, 

406, 407, 412 

approximating binomial distribution ( 近 { 以 二项分布） 
398 

approximating the binomial distribution ( 近仆乂二项分布） 
316-317 

central limit theorem ( 中心极限定理 ） 482 

expectation and variance ( 期望与方差） 308 

guide ( 指南） 319 

when X is large ( 当入很大 ） 407 

when X is small ( 当入很小 ）407 

X +Y 312-313 

Poisson Distribution Up Close ( 泊松分布细细看 ） 307 
Poisson variables, combining ( 泊松变量，组合 ） 313 
Pool Puzzle ( 奇妙池） 

binomial distribution ( 二项分布） • 299-300 
confidence intervals ( 置信区间） 499-500 
continuity correction ( 连续性修正） 399-400 
discrete probability distributions ( 离散概率分布） 
215-216 
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population ( 总体） 418, 438 
chart ( 图表） 419 
mean ( 均值） 446 

proportion ( 比例） 454-455, 457 • 

variance ( 方差） 448-450 

versus samples (. 与样本） 418 

( 同时参见总体和样本的估计） 
positive and negative distances ( 正负 3 巨离） 105 
positive linear correlation ( 正线性相关） 613, 631, 640 
possibility space ( 概率空间） 135 
precision, problem with ( 精度，问题） 489 
probability ( 概率） 127-196 
=area ( 等于面积 ） 331 
adding ( 相加） 142, 143 
Bayes 5 Theorem ( 贝叶斯定理） 173, 178 
best method ( 最佳方法） 143 
conditional ( 条件） 157-160 

probability tree ( 概率树） 158-161 
events ( 事件， 参见 ： events ) 
for a sample ( 用于样本） 459 
how probability relates to roulette ( 概率与轮盘赌的 
关系 ） 132 

intersection ( 交集） 149-154, 153 

Law of Total Probability ( 全概率公式） 172, 178 

measuring ( 童度 ）132 

of getting a black or even ( 出现黑色或偶数 .) 

145-146 

proportion ( 比例） 455 
range of values ( 数值范围） 329 
union ( 并集） 149-154, 153 
Venn diagram ( 维恩图） 136, 154 
written as fractions, decimals, or percentages ( 记作分 
数、小数或百分数 ） 139 
probability density ( 概率密度） 334 
function ( 函数） 330-337 
never equaling 0 ( 永远不会等于 0 ) 341 
probability distributions ( 概率分布） 220, 224, 363 
4X 376 

binomial ( 二项， 参见 ： binomial distribution ) 
continuous data ( 连续数据） 329-333 
geometric ( 几何，参见 ： geometric distribution ) 
large number of possibilities ( 大量概率） 273, 277 
letters p and q ( 字母 p 和 q ) 284 
new price and payouts ( 新价码与赔率） 212-214 
normal ( 正态，参见 ： normal distribution ) 


of X + Y ( X+Y) 372 
patterns ( 固定模式） 274-277 
Poisson (see Poisson distribution) ( 泊松 ) 
random variable X ( 随机变量 X ) 210 
standard deviation ( 标准差 ） 207 
Probability Distributions Up Close ( 概率分布细细看 ） 202 

probability tables ( 概率表） 349-352, 352, 370, 513, 
657-661 

standard normal probabilities ( 标准正态概率） 

658-659 

t-distribution critical values (t 分布临界值 ） 660 
X 2 (chi square) critical values ( x 2 ( 卡方）临界值 ） 661 
Probability Tables Up Close ( 概率表细细看 ） 351 
probability trees ( 概率树） 158-161, 165, 180 
hints (决策 ） 161 
proportions ( 比例 ） 9 
probability ( 概率） 455 
sampling distribution of ( 抽样分布 ） 460 
distribution of P s ( P s 分布） 464-466 
expectation of P s ( P s 期望） 462 
variance of P s ( P s 方 il) 463 
standard error of ( 标准值 ） 463 

Q 

qualitative data ( 定性数据） 18 
quartiles ( 四分位数 ） 92 

interquartile range ( 四分位距） 92-93 
lower ( 下 ） 92, 94 
middle (中 ）92 
upper ( 上 ） 92, 94 

questionnaires, bias ( 调查问卷，偏倚） 426 

R 

randomization ( 随机化 ）646 

randomized block design (experiments )( 随机化区组设 
计 ）647 

random number generators ( 随机编号生成器 ）431 
random variables ( 随机变量 ） 202 
adding ( 加 ） 230 
continuous ( 连续 ） 331 
independent ( 独立 ） 233 
subtracting (减 ）231 
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range (… 距 ) 86-103, 97, 329, 333 
basketball scores ( 篮球赛得分 ） 88 
calculating ( 计算） 86 
lower bound (下界 ）86 
outliers ( 异常值） 89-91 
problems with ( 问题） 90 
quartiles ( 四分位数） 92 
upper bound ( 上界 ）86 

regression ( 回归，参见： correlation and regression ) 
replication (复制） 646 
response variable ( 反应变量） 608 
right-skewed data ( 右偏斜数据 ） 62, 64 
roulette ( 轮盘赌） 129-196 

black and even pockets ( 黑色和偶数球位 ） 156 

board ( 轮盘板） 129-130 

how probability relates to ( 概率与 … 的关系 ）132 

independent events ( 独立事件） 184 

measuring probability ( 童度概率） 132 

P(Black I Even) ( P (黑 | 偶 >) 167-171 

P(Even) ( P(ffl)) 169 

possibility space ( 概率空间） 135 

probabilities ( 概率） 135 

probability of ball landing on ( 停球结果为 7 的概率 ） 7 
133-134 

sample space ( 样本空间） 135 



samples ( 样本） 418, 438 
biased ( 偏倚） 424-426 
designing ( 设计） 422-423 
mean ( 均值） 445, 446 
space ( 空间 ） 135 
survey ( 调查） 418,438 
unbiased ( 无偏倚） 424-426 
unreliability ( 不可靠） 420 
variance ( 方差） 449, 452 
( 同时参见估计总体与样本） 
sampling (抽样, 参见： statistical sampling ) 
sampling distribution ( 抽样分布） 466 

difference between two means ( 两个均值之间的差异） 
652 

difference between two proportions ( 两个比例之间的 
差异 ） 653 

sampling distribution of means ( 均值的抽样分布） 


471-479 

distribution of x ( X 的分布） 480 
variance of X ( X 的方差） 476 
sampling distribution of proportion ( 比例的抽样分布） 460 
distribution of P s ( P s 的分布） 464-466 
expectation of P s ( P s 的期望） 462 
variance of P s ( P s 的方差） 463 

Sampling Distribution of Proportions Up Close ( 比例的抽 
样分布细细看 ） 469 

Sampling Distribution of the Means Up Close ( 均值的抽样 
分布细细看） 479 

sampling frame ( 抽样框架） 423-428, 438 
bias ( 偏倚） 425 

sampling units ( 抽样单位） 422, 428 
bias ( 偏倚） 425 

sampling without replacement ( 不重复抽样） 430 
sampling with replacement ( 重复抽样） 430 
scales ( 刻度 ） 12 

scatter diagrams ( 散点图） 609, 612, 616, 618, 640 
line of best fit ( 最佳拟合线 ） 618 
finding equation ( 求方程） 622 
finding slope ( 求斜 _ ) 623-624 
sum of squared errors ( 误差平方和） 620-621 
scatter plots (see scatter diagrams)( 散点图） 
segmented bar chart ( 分段条形图 ） 14 
set theory ( 集合论 ） 139 
shortcuts ( 简捷算法） 370 
sigma (2) ( 西格玛 （ 2 ) ) 49 
sigma (a)( 西格玛 （a ) ) 107 
significance level ( 显著性水平） 533, 538, 539 
significance tests ( 显著性检验） 552 

simple random sampling ( 简单随机抽样） 430-431,434, 
436, 438 

drawing lots ( 抽签） 431 

random number generators ( 随机编号生成器 ） 431 
skewed data ( 偏斜数据） 58-59, 64 
mean ( 均值 ） 62 

Skewed Data Up Close ( 偏斜数据细细看 ） 59 
skewed to the left ( 左偏斜） 59 
skewed to the right ( 右偏斜） 58-59 
slope of regression line ( 回归线斜率） 
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confidence intervals ( 置 信区间 ） 651 
slot machines ( 老虎机） 198 

discrete random variables ( 离散随机变量 ）202 
low versus high variance ( 低方差与高方差 ）208 
probability distributions ( 概率分布 ） 201 
variance ( 方差 ）207 
split-category bar chart ( 分立条形图 ） 14 
standard deviation ( 标准差） 107-110, 113-117, 207, 220 
from the mean ( 从均值） 121 
variance equations ( 方差公式 ） 113 
a (sigma) ( a ( 西格玛 ）） 107,224 
Standard Deviation Exposed ( 标准差访谈 ）108 
standard error ( 标准误差 ） 485 
of mean ( 均值 … ） 479 
of proportion ( 比例…） 463, 466 
standardizing normal variables ( 正态变量标准化 ） 344 
standard normal probabilities ( 标准正态概率） 658-659 
standard scores ( 标准分） 118-122, 345-347, 352 
calculating ( 计算 ） 119 
interpreting ( 解释） 120 
Standard Scores Up Close ( 标准分细细看 ）121 
statistical sampling ( 统计抽样） 415-440 

bias in sampling ( 抽样偏倚） 423-426, 434, 438 
sources ( 来源） 425 
choosing samples ( 选择抽样） 430 
cluster sampling ( 整群抽样） 433, 433-434, 436, 438 
defined ( 确定） 418 
designing samples ( 设计样本） 422 
drawing lots ( 抽签） 431,434 
how it works ( 抽样方法 ） 419 
incorrect sampling unit ( 抽样单位不正确） 425 
increasing sample size ( 增大样本） 434 
population ( 总体） 418, 438 
population chart ( 总体图） 419 
populations versus samples ( 总体与样本） 418 
random number generators ( 随机编号发生器 ） 431 
representative sample ( 代表性样本） 420 
samples ( 样本） 438 

unreliability ( 不可靠） 420 
sample survey ( 样本调查） 418, 438 
sampling bias ( 抽样偏倚） 434 
sampling chart (抽样围） 419 
sampling frame ( 抽样框架） 423-428, 438 
sampling units ( 样本单位） 422, 428 


sampling without replacement ( 不重复 抽样） 430 
sampling with replacement ( 重复 抽样） 430 
simple random sampling ( 简单随机抽样） 430-438 
choosing ( 选择抽样） 431 
strata ( 层） 432 

stratified sampling ( 分群抽样） 432, 434, 436, 438 
systematic sampling ( 系统抽样） 433-434, 438 
target population ( 目标总体） 422, 428, 438 
unreliability ( 不可靠） 420 
statistics ( ) 

defined ( 定义 ） 2 
why learn ( 为何学习） 3 
statistics tables ( 统计表） 657-661 

standard normal probabilities ( 标准正态概率） 
658-659 

t-distribution critical values (t 分布临界值) 660 
X 2 (chi square) critical values ( x 2 ( 卡方 ) 临界值） 661 
stemplots ( 茎叶图） 644 
stems ( 茎） 644 
strata ( 层 ） 432 

stratified sampling ( 分群抽样） 432-438 
stratified sampling ( 分群抽样） 436 
summation symbol (2)( 求和符号 （ 2 ) ) 49 
sum of squared errors ( 误差平方和） 640 
symmetric data ( 对称数据） 59 
systematic sampling ( 系统抽样） 433-434, 438 



t-distributions (t 分布） 509-515 
probability tables ( 概 率表） 513 
shortcuts ( 简便方法） 515 
small sample ( 小样本） 510 
standard score ( 标准分） 511 
table ( 表） 660 

versus normal distributions (. 与正态分布） 515 

target population ( 目标总体） 422, 426, 428, 438 
test statistic ( 检验统计量） 531, 539, 544, 547 
three-horse race ( 三马赛） 243-246 
two-tailed tests ( 双尾检测） 534, 539 
Type I error ( 第一类错误） 555-560, 566 
Type II error ( 第二类错误） 555-560, 566 
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unbiased sample ( 非偏倚样本） 424-425 
uniform distribution ( 均勾分布） 655 
union ( 并集） 149-154 
univariate data ( 单变量数据） 608, 640 
upper bounds ( 上界 ） 86, 97 

basketball scores ( 篮球赛得分 ） 88 
upper quartile ( 上四分位数 ）92 
finding ( 求解 ）94 

V 

variability ( 差异性） 104-124 

average distance ( 平均距离 ） 105 
positive and negative distances ( 正负距离） 105 
variance ( 方差， 参见： variance ) 
variables ( 变置 ） 368 

probabilities involving the difference between two (两 
个变量之差的概率 ）369 

variance ( 方差） 106-113, 122, 205-208, 219, 220, 367 
binomial distribution ( 二项分布） 298, 389 
calculating ( 计算） 111-113 
quicker way ( 更快方法 ） 113 
geometric distribution ( 几何分布） 281-284 
independent observations ( 独立观察结果） 378 
linear transforms ( 线性变换） 233 
of X (X…… ) 476 
Poisson distribution ( 泊松分布） 308 
slot machines ( 老虎机） 207 
standard deviation ( 标准差） 107-110 
a (sigma) ( a ( 西格玛 ）） 107 
two games ( 两局赌局） 222-224 
X +Y 368 

Variance Up Close ( 方差细细看） 450 
Venn diagrams ( 维恩图） 136, 139, 154,165 
conditional probability ( 条件概率 ） 157 
independent events ( 独立事件 ） 184 
vertical bar charts ( 垂直条形图） 10-11,23 
visualizing information ( 信息图形化） 1-44, 19-28 
categorical and numerical data ( 类别数据与数字数据） 
18-23 

cumulative frequency ( 累积频数） 34-38 


histograms ( 直方图） 19-28 
statistics ( 统计量 ） 2 
( 参见图形图表） 

Vital Statistics ( 重要统计量） 

AorB(ASB) 153 

approximating binomial distribution ( 近似二项分布） 389 
approximating Poisson distribution ( 近似泊松分布） 407 
arranging by type ( 按种类排列 ） 254 
Bayes’ Theorem ( 贝叶斯定理） 178 
combinations ( 组合） 263 
conditions ( 条件概率 ） 165 
cumulative frequency ( 累积频数） 34 
event ( 事件） 132 

formulas for arrangements ( 排位方式的计算公式） 248 

frequency ( 频数 ） 8 

independence ( 独立） 184 

independent observations ( 独立观察结果） 224 

interquartile range ( 四分位距） 93 

Law of Total Probability ( 全概率公式） 178 

linear transforms ( 线性变换） 220 

mean ( 均值 ） 54 

mode ( 模式） 76 

outlier ( 异常值） 58 

percentile ( 百分位数） 99 

permutations ( 排列） 263 

probability ( 概率） 143 

quartiles ( 四分位数） 92 

range (距 ） 86 

significance level ( 显著性水平） 533 
skewed data ( 偏斜数据） 58 
standard score ( 标准分） 346 
uniform distribution ( 均勾分布） 655 
variance ( 方差） 106, 113 

W 

Watch it! ( 小心！） 

criteria of np>1 0 and nq >10 ( 条件： np>10 与 nq >10 ) 389 
cumulative frequencies ( 累积频数） 35 
exclusive versus exhaustive ( 互斥与穷举） 150 
how large n needs to be ( n 需要有多大） 465 
independent random variables ( 独立随机变量） 
230-232 

independent versus mutually exclusive ( 独立与互斥） 
183 

linear regression ( 线性回归） 626 
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percentages with no frequencies ( 无频数百分数 ）12 
quartiles ( 四分位数 ） 92 
samples equation ( 样本公式 ） 451 
subtracting random variables ( 减去随机变量 ）231 
X, +X 2 and 2X ( X 】 + 和 2X ) 223 

Who Wants To Win A Swivel Chair ( 转椅臝臝臝） 289, 
381-386 

expectation and variance ( 期望与方差） 304 
generalizing probability for three questions ( 推而广之 
至求 3 个问题的概率 ）293 

generalizing the probability ( 进一步推导概率算式 ）296 
probability of getting exactly three questions right (答 
对三题的概率 ）304 

probability of getting exactly two questions right ( 答对 
两题的概率 ）304 

probability of getting no questions right ( —题也答不对 
的概率 ）304 

probability of getting two or three questions right (答 
对两题或三题的概率 ）304 
should you play or walk away ( 玩下去，还是转身走 ）291 
width of data ( 数据宽度 ） 88 

X 

X + Y Distribution Up Close ( X+Y 分布细细看） 368 
X - Y Distribution Up Close (X- Y 分布细细看 ) 369 

Z 

z-scores ( z 分） 118-122 
calculating ( 计算 ） 119 
interpreting ( 释义 ） 120 
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